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لايسمح بإعادة إصدار هذا الكتابء أو نقله في أي شكل أو وسيلة» 
سواء أكان إلكترونية أم يدوية أم ميكانيكية» بها في ذلك جميع أنواع تصوير المستندات بالنسخ» أو 
التسجيل أو التخزين» أو أنظمة الاسترجاع» دون إذن خطي من المركز بذلك. 
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هذا المشروع 


مشروع تأليف سلسلة كتب في Jle‏ (حوسبة العربية) بهدف إلى بناء تراكم dore‏ 
في جال حيوي مهم» هو جال (حوسبة العربية) . ويعد هذا الكتاب واحدا من سلسلة 
كتب صدرت ف المركز. 

يقع هذا المشروع ضمن سلسلة (مباحث لغوية) التي يشرف المركز على اختيار 
عنواناتهاء وتكليف المحررين والمؤلفين» ومتابعة التأليف حتى إصدار الكتب. وهي 
سلسلة يجتهد المركز أن تكون سداداً لحاجات بحثية وعلمية تحتاج إلى تنبيه الباحثين 


عليهاء أو تكثيف البحث فيها. 
ويعدٌ هذا الكتاب واحداً من كتب ثلاثة مترابطة في مشروع علمي واحد متخصص 
في (الذكاء الاصطناعي) : 


.١‏ العربية والذكاء الاصطناعى. 
؟. تطبيقات الذكاء الاصطناعى في خدمة اللغة العربية. 
.Y‏ خوارزميات الذكاء الاصطناعي ني تحليل النص العربي. 
د.عبدالله بن يحبى الفيفي 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
HEN‏ ااا 


كلمة المركز 


يعمل المركز في جال البحث العلمي ونشر الكتب مستهدفاً التركيز على المجالات 
tou‏ زالع يحاجة فا ا عليهاء S‏ الدع Add sei‏ 
الباحثين والجهات الأكاديمية إلى أهمية استثغارها بمختلف وجوه الاستشار» وذلك مثل 
Jie‏ (التخطيط اللغوي) و (العربية في العالم) و(الأدلة والمعلومات) و (تعليم العربية 
لأبناتها أو لغير الناطقين Ce‏ إلى غير ذلك من المجالات» وإن من أهم مجالات البحث 
المستقبلية في اللغة العربية مجال (العربية والحوسبة » والذكاء الاصطناعي) حيث إن 
اللغات الحية مرهونة حياتها مستقبلا بمدى تجاوبها مع التطورات التقنية والعالم 
الافتراضي» وكثافة المحتوى الالكتروني المكتوب» وهو ما يشكل تحديا حقيقيا أمام 
اللغات غير المنتجة للمعرفة أو للتقنية. 

وقد عمل المركز على تسليط الضوء على هذا المجال التخصصى؛ مستعينا بالكفاءات 
القادرة من المهتمين بالتخصص البيني (بين اللغة ttc uH.‏ جهودهم» وهادفاً 
إلى نشرهاء وتعميم مبادئهاء راغباً أن يكون هذا المسار العلمي مقررا في الجامعات في 
كلية العربية والحاسوب» ومجالا بحثيا يقصده الباحثون الأكديميون» والجهات البحثية 
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وقد أصدر المركز سابقا ستة عشر كتاباً ختصا في (حوسبة العربية) وفي الإفادة من 
«المدونات اللغوية) في الأبحاث العربية» ويحتفل بإصدار سبعة كتب جديدة مختصة في 
(حوسبة العربية والذكاء الاصطناعي) » ويقدمها للقارئ العربي» وللجهات الأكاديمية؛ 
للإفادة منها واعتماد ما تراه منها مناسباً لتعليمه والبناء عليه» وهذه الكتب السبعة هي : 
(تطبيقات الذكاء الاصطناعي في المعالجة الآلية» تطبيقات الذكاء الاصطناعي à‏ 
خدمة اللغة العربية» خوارزميات الذكاء الاصطناعي في تحليل النص العربي» مقدمة 
RAE p d‏ العرينة: رار all ca pal E cis lap AE‏ 
تطبيقات أساسية في المعالحة الآلية للغة العربية). 

ويشكر المركز السادة مؤلفي الكتب» ومحررهاء لما تفضلوا به من عمل علمي 
رصين» وأدعو الباحثين والمؤلفين إلى التواصل مع المركز لاستكمال المسيرة» وتفتيق 


وفق الله الجهود وسدد الرؤى. 


الأمين العام 
أ. د. محمود إسماعيل صالح 
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(eol مقدمة‎ 


الحمد لله رب العالمين» والصلاة والسلام على أشرف المرسلين» نبينا محمد وعلى آله 
وصحابته أجمعين» وبعد: 

فأود أولاً أن أعبر عن وافر امتناني لمركز الملك عبدالله بن عبدالعزيز الدولي لخدمة 
اللغة العربية على اهتمامه بإصدار سلسلة حول الذكاء الاصطناعى واللغة العربية» إذ 
ر قي بإدارة als lebe] ad siad s te‏ رع عل il all‏ 
والسرور أن نرى إصدارات عربية في مثل هذه الموضوعات التخصصية البينية التي 
تندر مراجعها في مكتبتنا العربية» خصوصاً تلك المراجع التي يتسم محتواها بالشرح 
المبسط لغير المتخصص مع ما تقدمه من ثراء وغنى في المعلومة» وهو السهل الممتنع 


-١‏ عبدالله بن يحبى الفيفي: أستاذ اللغويات الحاسوبية المساعد في جامعة الإمام محمد بن سعود الإسلامية في الرياض. 
درس البكالوريوس في اللغة العربية في جامعة الملك خالد في أبهاء والماجستير في تعليم اللغة بمساعدة الحاسب في قسم 
اللغويات في جامعة Essex‏ والدكتوراه في اللغويات الحاسوبية في قسم الحاسب JYI‏ في جامعة «Leeds‏ وكلاهما 
في بريطانيا. له العديد من الأبحاث المنشورة حول تقنيات معالجة اللغة العربية آلياء والمدونات اللغوية وبراجها 
الحاسوبية» وكذلك مدونات المتعلمين» وصناعة المعاجم الحاسوبية لمتعلمي اللغة العربية» إضافة إلى مشاركته في 
تأليف بعض الكتب المتخصصة في اللسانيات الحاسوبية» والمدونات اللغوية وتطبيقاتها. عمل حك لدى عدد من 
الدوريات العلمية والمؤتمرات الدولية. أنشأ المدونة اللغوية لمتعلمى اللغة العربية cArabic Learner Corpus‏ شارك 
في العديد من المشاريع العلمية والبحثية الوطنية في جال خصنصه. 
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الذي نحتاجه في مثل هذه المؤلفات التي تثري مكتبتنا العربية بلا شك وتقدم المعرفة 
الحديثة في قالب يؤمل منه جذب أكبر عدد ممكن من المهتمين لهذه المجالات التخصصية 
الخصبة» التي باتت ميداناً للدراسة والبحث النظري إضافة إلى التجارب والتطبيقات 
العملية التي تتنافس عليها كبريات الشركات التقنية» وكذلك الجامعات والمراكز 
البحثية. 


وتحسب لمركز الملك عبد الله بن عبدالعزيز الدولي لخدمة اللغة العربية مبادرته في تبني 
مثل هذا المشروع وغيره من مشروعات السلاسل التي تعالج موضوعات متخصصة» 
وتفتح آفاقاً للقارئ العربي للحاق بركب العلم والمعرفة والاطلاع على آخر مستجداته. 

وقد حرص المشاركون في تأليف هذا الكتاب - وهم نخبة من أساتذة الجامعات 
المتخصصين في ميدان الذكاء الاصطناعي ومعالجة اللغة العربية (مع حفظ الألقاب 
العلمية لهم) - على أن يكون الطرح تعليميا متدرجا مع شرح المصطلحات قدر 
الإمكان» وتقريب المعلومات للقارئ بأمثلة واضحة تساعد على الفهم والتطبيق» 
إلا أنه موجه بالدرجة الأولى لمن لديه مقدمة يسيرة عن تطبيقات الذكاء الاصطناعى 
Artificial Intelligence‏ ومعالحة اللغة الطبيعية cNatural Language Processing‏ 
وبناء الخوارزميات cAlgorithm‏ وذلك لتعميق معرفته حول خوارزميات الذكاء 
الاصطناعي التي يمكن الاستفادة منها في مجال تحليل النص العربي ومعالحة اللغة 
العربية التي تختلف في تركيبتها الصرفية والنحوية والدلالية عن اللغات اللاتينية التي 
حظيت enl‏ كبير في هذا الجانب» فهو -أي النص العربي- بحاجة إلى مزيد من 
البحث والدراسة لتكييف الخوارزميات المستعملة بيا يتناسب مع خصائصه وقواعده. 
وهذا ما يحاول الكتاب شرحه باستعراض لعدة موضوعات حظيت بأبحاث عميقة في 
الآونة الحديثة. وفيما بلي عرض موجز لمحتويات الكتاب اعتماداً على الملخصات التي 
سترد لاحقاً في بداية كل فصل من فصوله. l‏ 

ففي الفصل الأول يتحدث وليد الصانع عن طرق ومستويات معالجة اللغة في 
الذكاء الاصطناعى» مبيناً أن حوسبة معالجة اللغة #هدف إلى محاكاة الذكاء البشري؛ 
إذ إن اللغات "TENER,‏ أكثر اللأنظمة تعقبداء وهى قر colinas‏ عة بذعا 
من الوت واا cell‏ وا هلا En OT‏ الو عل سوناف ا 
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اللغة» مع استعراض بعض من الطرق المشهورة المستخدمة في معالجة اللغة في الذكاء 
الاصطناعي» ومنها على سبيل المثال خوارزميات تعلّم الآلة «(Machine Learning)‏ 
ونهاذج ماركوف الخفية (Hidden Markov Models -HMMs)‏ والتعرّف النمطي 
(Pattern Recognition)‏ في الفضاء الدلالي» ونحوها ما يعطي القارئ لمحة عن طرق 
الذكاء الاصطناعي المستعملة في AA ba‏ 

في الفصل الثاني يتناول فارس القنيعير خوارزميات التعلم العميق وتطبيقاته 
في معالجة اللغة» والتي تعد امتداداً لخوارزميات الشبكات العصبية. ويرجع سبب 
استخدام خوارزميات التعلم العميق إلى قدرتها على تعلم ناذج بالغة التعقيد كان 
من الصعب تعلمها سابقاء وهذا أتاح العديد من التطبيقات التي تعالج احتياجات 
واقعية» منها معالجة اللغات الطبيعية. فيبداً هذا الفصل بتقديم موجز عن الشبكات 
العصبية والتعلم العميق» ثم يتطرق لأهم المعماريات المستخدمة» وفي النهاية يعرض 
بعض تطبيقاتها في معالجة اللغات الطبيعية؛ للخروج بفهم عام عن خوارزميات التعلم 
العميق وكيفية تطبيقها في مجال معالحة اللغات. 

وفي الفصل الثالث يتحدث عبدالله الراجح عن الترجمة الآلية» التي تعد من أصعب 
المشاكل في Jue‏ الذكاء الاصطناعي» إذ تتطلب معارف لغوية متعددة لمحاكاة عمل 
المترجم المختص» ومع ذلك فهي تشهد تطوراً ملحوظاً في أداء أنظمتها بعد عقود 
من البحث والتطوير» وخصوصاً بعد تحولما من منهج الترجمة الآلية الإحصائية 
(Statistical Machine Translation)‏ الذي كان مهيمنا على هذا الميدان لعدة عقود» 
إلى أن تحول المجتمع البحثي حديثاً وتبعته كبريات الشركات إلى المنهج المعتمد على 
الشبكات العصبية (Neural Machine Translation)‏ ويمكن اعتبارها نقطة التحول 
التي دخلت معها الترجمة الآلية عصراً جديداً إذ يقدم الفصل ا حالي عرضاً لأبرز ملامح 
هذا العصرء مع التطرق لبعض التحديات التي تواجه هذا المنهج البحثي الجديد. 

في الفصل الرابع يتناول عبدالرحمن العصيمي نمذجة الكلمة العربية» إذ تمثل الكلمة 
ركيزة مهمة في فهم واستيعاب الخطاب المكتوب. Gades‏ هذا الفصل إلى تزويد غير 
المتخصص بمقدمة لفهم أحدث الخوارزميات المستخدمة في بناء الناذج الحاسوبية 
للكلمة العربية الفصيحة المكتوبة. كما يحاول تفسير أسباب الصعوبات التي تكتنف نمذجة 
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الكلمة العربية تحديدًاء بدءًا بنظامها الصرفي الغير خطي ومرورًا بغناها الصرفي وانتهاءً 
بمستويات الغموض العالية في النص العربي. كا يقدم نمطين مشهورين لتحليل الكلمة: 
اللغوي والتوزيعي» ويقارن y ces‏ وذلك عبر مقدمة لكل نمط وتحليل الخوارزميات 
المستخدمة وأشهر الأدوات المتاحة. وني الختام» يسلط الضوء على أوجه القصور في بعض 
الخوارزميات عند تحليل ونمذجة اللغة العربية» والوسائل مقترحة لمعالجتها. 

في الفصل الخامس يقدم أيمن الغامدي استعراضاً لتقنيات الذكاء الاصطناعي 
والمعالجة الحاسوبية للمتلازمات اللفظية والتراكيب الاصطلاحية» من خلال تتبع el‏ 
الدراسات التى اهتمت بالمعالجة الحاسوبية هذه الظاهرة اللغوية» إذ يبدأ الفصل بمقدمة 
تبين أهمية دراسة هذه الظاهرة وأهم مجالات البحث فيهاء ثم يقدم إطاراً نظرياً مشتملاً 
على أهم الخصائص اللغوية المميزة لها في اللغة العربية» بالإضافة إلى استعراض أهم 
التصنيفات المستعملة للتراكيب الاصطلاحية في مستويات لغوية متعددة. بعد ذلك 
يستعرض أهم تطبيقات المعالجة الحاسوبية هذه الظاهرة والتي تلخص المشاكل البحثية 
الرئيسة التي تتضمن التراكيب الاصطلاحية في أدبيات معالجة اللغات» كا يسلط 
الضوء بشكل خاص على مهمتي الاستخراج والتعرف الآلي» قبل أن يختم بعرض 
موجز لأبرز التحديات التى لا زالت تشكل عقبة في سبيل الوصول إلى درجات عالية 
من الدقة ف مهام المعابقة الحاسوبية المختلفة هذه الظاهرة اللغوية Xll‏ 

oos‏ أتقدم بالشكر الوافر - بعد شكر الله je‏ وجل - إلى مركز الملك عبدالله 
بن عبدالعزيز الدولي لخدمة اللغة العربية على ما قدمه للمحرر ولفريق التأليف 
من دعم متصل وتذليل للعقبات في سبيل تأليف هذا الكتاب الذي يؤمل أن يكون 
مرجعاً للمهتمين بهذا الميدان. كما أتقدم بالشكر الجزيل لجميع الزملاء المشاركين في 
تأليف فصول هذا الكتاب الذين بذلوا أوقاتهم وقدموا خلاصة أبحاثهم في مجحالات 
تخصصهم» فلهم مني جزيل الشكر والامتنان. 


المحرر / عبدالله بن يحبى الفيفي 
الرياض- A‏ ذو القعدة ١٤٤٠١ه‏ 
ayjfaifi@ gmail.com‏ 
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موضوعات فصول الكتاب 
الفصل الأول: طرق ومستويات معالجة اللغة في الذكاء الاصطناعي 
الفصل الثاني: التعلم العميق وتطبيقاته في معالجة اللغة 
الفصل الثالث: الترحمة الآلية 
د. عبدالله بن صالح الراجح V‏ 
الفصل الرابع: نمذجة الكلمة العربية 
د. عبدال رحمن بن محمد العصيمى 45 
الفصل الخامس: تقنيات الذكاء الاصطناعى åd lall g‏ الحاسوبية 
للمتلازمات اللفظية والتراكيب الاصطلاحية 


د. أيمن بن أحمد الغامدي ٠٠١‏ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل 


الفصل الأول 
طرق ومستويات معالجة Aalt‏ 
ے2 الذكاء الاصطناعى 


-ه16- 


هذه الطبعة إهداء من SA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


AN 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EN‏ ^ 


ملخص الفصل 

تعتبر اللغات البشرية أحد أكثر الأنظمة تعقيداً والتي تميز الإنسان عن غيره من 
المخلوقات. وتمثل قدرة الإنسان على فهم وتوليد اللغة عاملاً من عوامل تميزه العقلاني. 
ولهذاء OB‏ حوسبة معالجة اللغة تعتبر أحد أهم تطبيقات الذكاء الاصطناعي والذي 
يدف إلى محاكاة الذكاء البشري. وتر معالحة اللغة في الذكاء الاصطناعى بمستويات 
عدة» بدءاً من الصوت وائتهاءً بالخطاب. مهما ]لكر كل توي pagi‏ 
لغالحة اللغة فى كل هذه الستويات. وى هذا الفضلء"تلقى الضوء cob ges de‏ 
PPP E‏ من TUS CRM ENTRANT‏ 
في الذكاء الاصطناعي. 


د. وليد بن عبدالله الصانع 

أستاذ بحث مساعد في المركز الوطني لتقنية الذكاء الاصطناعي والبيانات الضخمة 
بمدينة الملك عبدالعزيز للعلوم والتقنية. حصل على درجتي البكالوريوس وال ماجستير 
في علوم الحاسب الآلي من جامعة الملك سعود بالرياض. قرأ الدكتوراه في مجموعة 
الذكاء الاصطناعي بجامعة يورك ببريطانيا. عمل سابقا مهندسا للبرمجيات في قسم 
الأبحاث والتطوير في شركة الإلكترونيات المتقدمة» ثم مهندسا للنظم والبرمجيات في 
شركة الاتصالات السعودية قبل أن ينتقل للعمل باحثا في مدينة الملك عبدالعزيز للعلوم 
والتقنية. تتمثل اهت|ماته البحثية في تعلم الآلة» وتحديدا في تعلم البرامج المنطقية» تعلم 
النماذج الاحتالية» وتعلم البرامج المنطقية cde VI‏ وتطبيقات تعلم الآلة في نمذجة 
ومعالحة اللغة. 


-/ااط- 
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١‏ -المقدمة 

اللغة هي الوسيلة التي يعبر بها الإنسان Ce‏ يدور في عقله من تصورات وأفكار. 

وهي نظام ترميزي متعارّف عليه بين مجموعة من البشر يستخدمونه لإيصال الأفكار 
والصور التي في عقوم بحيث يستطيع المستقبل'" هذه الرموز من نفس المجموعة أن 
يحولا في عقله لنفس الأفكار والصور التي أراد المتكلم إيصاهاء أو قريبًا منها. إذ إن 
اللغة البشرية هي تمثيل لأفكار ومفاهيم بطريقة مسموعة (الكلام) أو مكتوبة (النص). 
sl‏ عليه» OB‏ استخدام الإنسان للغة مبني على ثلاث قدرات أساسية وهبها الله 
سبحانه وتعالى ed‏ وهي: 

o‏ قدرته على تعلم اللغة :(Language Acquisition)‏ أي قدرته على استقراء 
(Induce)‏ القواعد التركيبية والدلالية للوحدات والتراكيب اللغوية» كالقواعد 
الصرفية والنحوية ودلالات المفردات» من خلال الأمثلة التى يتعرض لما سماعًا 
)3 بدايته كطفل)» أو قراءة (بعد تعلمه القر اءة) )2002 Clark,‏ 

مثال: 
Ros‏ طفل إلى الناس من حوله يقولون في حديثهم عن ذُكور: 
dae‏ وو EATE‏ أكرمة هه ند 


E 


ds‏ حديثهم عن إنا 
أعطيت cl‏ حدثت cla‏ سلمت هاء أكرمة هاء ... 
ويعلم هذا الطفل أن الكلمات تشير إلى ea‏ مرتبطة بالزمن (أفعال) قام 
بها المتحدث تجاه أطراف ثالثة» ذكورًا وإناثا. فعندئذ» يقوم باستقراء النظرية 
اللغوية التالية: 
" إذا أراد متحدث الإشارة إلى فعل تجاه طرف ثالث ذكر فإنه يلحق e»‏ بالفعل» 
وإذا أراد الإشارة إلى فعل تجاه طرف ثالث أنثى فإنه يلحق بالفعل «ها). 


١‏ - سنستخدم كلمة «الُستقبل» في مناسبات مختلفة خلال هذا الفصل للإشارة للسامع أو القارئ عندما لا sa‏ السياق 


—YA- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


* قدرته على استقبال اللغةء أو ما يعرف باللغة الاستقبالية Receptive)‏ 
:(Language‏ وهي القدرة على معالحة وفهم اللغة وفق القواعد اللغوية التي 
تعلمها 5 335 المعتقدات (Beliefs)‏ التي كونها عن العالم (خصائص الموجودات 
وعلاقاتها مع بعضها). أي تحويل الرموز والتراكيب اللغوية إلى المفاهيم العقلية 
المناسبة. وتستخدم هذه القدرة في معالجة ما يسمعه الإنسان أو يقرأه. 

مثال: 

does‏ شخص هذه الجملة «أعطيت de‏ الجاليس هناك كأسًا من الماء». 

[o‏ اللغة الاستقبالية بقدرة الستقبل على itl‏ هذه الجملة» فأحد 

الفرضيات هي أن يقوم الُستقبل بتفكيك الجملة إلى الكلمات 551 ها كالتالي: 
أعطى» ت» ال» رجل» ال» جالس» هناك» كأساء من» «JE‏ ماء. 

وتحديد أدوارها في تركيب الجملة كالتالي: 

أعطى (فعل ماض)» ت (حرف ينوب عن اسم)» ال (كلمة تعريفية لما 

بعدها)» رجل (اسم جنس)» ال (كلمة تعريفية لما بعدها)» جالس (صفة)» 

هناك (اسم إشارة)» USUS‏ (اسم جنس)» من (حرف»» ال (كلمة تعريفية لما 

بعدها)» ماء (اسم جنس). 


يمكن بعد ذلك تحليل تركيب الجملة وَفْق قواعد التركيب اللغوية» بحيث 
od‏ أولوية ترابط الكلمات مع بعضها البعض لتكوين العبارات انتهاءً بتكوين 
الجملة (Parsing)‏ فعلى سبيل المثال» 5 Ja‏ الكلمتان «الجالس» و «هناك» 
لتكوين العبارة «الجالس هناك» ومن ثم تُدخل عليهم| كلمة «الرجل» لتكوين 
العبارة الأوسع «الرجل الجالس هناك»» وذلك لتحديد قراءة أن «الجالس 
هناك» عبارة مرتبطة ب «الرجل». ويقوم المستقبل بدمج التحليل الذي توصل 
له مع دلالة المفردات (Lexical Semantics)‏ ومع معتقداته» وهي حقيقة أن 
الكأس ans‏ والرجل هو الذي يُعطِيء لاستخراج دلالة الجملة وتحويلها إلى 
المفاهيم العقلية المناسبة» وهي تحديد المعطِيء والمعطى. adl‏ له» وصفة 
asd‏ له أثناء الكلام. 


-1١4- 
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(Productive Language) قدرته على إنتاج اللغة» أو ما يعرف باللغة الإنتاجية‎ e 
وذلك بتحويل المفاهيم‎ :(Expressive Language) أو اللغة التعبيرية‎ 
والتصورات العقلية إلى تراكيب لغوية مناسبة توصل هذه التصورات‎ 
والمغاهيم» أو قريبًا منهاء إلى المستقبل. وهي عملية عكسية للغة الاستقبالية.‎ 
وتستخدم هذه القدرة أثناء الكلام أو الكتابة.‎ 

مثال: 

يريد coded‏ إيصال مفهوم في عقله يتمثّل في حادثةٍ انتهت» وهي إعطاء 

رجل يجلس الآن في مكانٍ يمكن رؤيته CAS‏ من الماء. فأحد الفَرّضيّات أنه 

يستدعي ael‏ اللغة التي تعلّمها لبناء ا جُمل» ومن ثم يستدعي الكلمات 

التي توصل المعنى ويُولّد الجملة. يُمكِن أن es‏ هذه العملية كالتالي: 

* المفهوم اراد td uad‏ إلى فعل» ويوجد فيه فاعل ومفعولان» ووصف 
لحال أحد المفعولين» فيستدعي قاعدة لغوية تعلمها للتعبير عن هذا المفهوم 
ليحصل على: 

فعل + فاعل + المفعول الأول + صفة + المفعول الثاني O‏ 

* يبحث عن كلمة في الذاكرة توصل معنى الحدث» وهي هنا الإعطاء ثم 
يصرفها لتناسب الزمان الماضى ولتشير إلى أن مَن أعطى هو coll‏ 
,3 لقواعد الصرف التي تعلّمهاء يولد الكلمة «أعطيت». 

* يبحث في الذاكرة عن كلمة تشير إلى مَن حدث له الفعل» فيولد كلمة 
«الرجل». 

؟ يستدعي الكلمات المناسبة لوصف العطى edd‏ ويُولد عبارة «الجالس 


KO. 
gpass ولك غاا ت ا م‎ REO 
DUI عبارة «كأسا من‎ 


-١‏ يشير الرمز «+» هنا إلى علاقة ترتيب بين الكلمات. 
-Y‏ هذه العبارة أيضا تولد وفقًا لقواعد تركيبية بنفس طريقة توليد ا لجملةء لذا فإننا لا نحتاج لإعادة شرحها مرة أخرى. 
-Y‏ نفس ال حال الذي ذكر في توليد عبارة -الجالس هناك- ينطبق هنا LAT‏ 


"I 
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ولأن الذكاء الاصطناعي هو exe c)‏ بدراسة وفهم الإدراك البشري» ومن & 
محاولة بناء برمجيات حاسوبية تحاكى عملية الإدراك op‏ الباحثين في Jie‏ الذكاء 
ceto‏ كارن عل دراد bue‏ راك اوت لدي ddl s obs‏ 
Eas 25s Casbe iilos‏ كما eade‏ لس jo BT‏ 
أسرار الكون التى وضعها الله سبحانه وتعالى ولا سبيل لمعرفتها على سبيل اليقين. 
وتستمل النظريات التي تطرح في كثير من الأدبيات الخاصة oip‏ الدراسات من 
فروع مختلفة J‏ بنية تحتية لمجال الذكاء الاصطناعيء ومن هذه الفروع: اللسانيات 
(Linguistics)‏ واللسانيات النفسية ((Psycholinguistics)‏ الرياضيات والإحصاء 
«(Mathematics and Statistics)‏ الفلسفة والمنطق «(Philosophy and Logic)‏ 
علم الإدراك (Cognitive Science)‏ نظرية الحوسبة (Theory of Computation)‏ . 
لذا فإن الدارس لمجال اللسانيات الحاسوبية يعمل في منطقة تقاطع هذه الفنون» إضافة 
إلى فنون أخرى تمس بعض التطبيقات» مثل معالحة الإشارات (Signal Processing)‏ 
d‏ يعمل على تحويل الكلام المسموع إلى نصوص مكتوبة. 

وفي هذا الفصل سنتطرّق إلى مستويات معالجة اللغة البشرية بدءًا من تكوين الكلمة 
من الأصوات إلى إدراك المعنى وبناء المعتقدات. ثم سنستعرض بعض الأمثلة على 
المواضيع التي يعمل عليها الباحثون في مجال اللسانيات الحاسوبية» مع التركيز على 
معالجحة النص فقط دون معالحة الكلام. وآخرًا سنستعرض بعضًا من الطرق المستخدّمة 
نانك ار 


-Y‏ مستويات معالحة اللغة 

مر معالحة اللغات الطبيعية على مستويات dide‏ بذاية من تكوين الكلمة من 
الأصوات» مرورًا بتكوين الجمل من الكلمات» regal,‏ بفهم الكلام. ولكل مستوی 
قواعدٌ تركيبية تستخدم لتكوين وحدات هذا المستوى. يمكن تحديد المستويات معالحة 
اللغة بالتالى )2018 :C Allen J. , 1994; McCarthy,‏ 


-١‏ هذا اعتقاد الكاتب على الأقل. 
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(primitive) وهو المستوى الأساسي‎ :(Phonetic Level) ى الصوتي‎ gea 
بعضها لمعرفة‎ E الأصوات وترابطها‎ J ار للغة. وفي هذا المستوى»‎ 


FSK 
بنية الكلمات‎ , p المستوى الصرفي ا في هذا المستوى‎ 
فمثلاء»‎ .(Morphemes) وعدايت اباس تَسمّى الوحدات الصرفية‎ deih 


كلمة «يذهبون» مكونة من ثلاث وحدات» الأولى «ي» للإشارة إلى أن الفعل 
eG‏ به طرف ثالثء والثانية «ذهب» وهو الفعل» ويُمثل الوحدة الأساسية 
للكلمة» والثالثة «ون» للإشارة إلى „Sii e^‏ 

المستوى التر كيبى للجمل :(Syntactic Level)‏ في هذا المستوى. ل ترابط 
الكلمات لمعرفة كيف تتكون الجملة» ومن خلال هذا التحليل يمكن تحديد 
قراءة الجملة. فعلى سبيل المثال» يمكن تحليل جملة «رأيت e 2I‏ جالِسًا؛ على 
قراءتين» الأولى وهي الشاذة: 

وفي هذه cel al‏ تكون كلمة «JU»‏ حال" للرائى. oy‏ وبحسب التحليل 
أعلاه» رُبطت الكلمتان «رأيت» و «الرجل» Yi‏ لتكوين عبارة «رأيت الرجل» 
ومن ثم 4 أدخلت كلمة «جالسًا» إلى هذه العبارة كما هو موضح في الأقواس 
فيكون ناتج التحليل أن الذي رأى كان جالسًا وهو يرى الرجل. أما M‏ 
الثانية وهى الشائعة: 

ففيها رُبطت الكلمباد «الرجل» و «جالسًاا مع بعضها e Y jl‏ «الرجل 
DN e «JU‏ على هذه العبارة كلمة Sed‏ كا هو مُوضّح à‏ الأقواسن 
فتشير القراءة إلى VP ol‏ هو الذي كان DU Ju‏ رآه على هذه „J‏ 
وهذا الاختلاف في تحليل نفس الجملة يعرّف بالغموض التركيبى Syntactic)‏ 
(Ambiguity) (Manning & Schütze, 1999‏ أي أن الجملة يمكن تركيبها 
بأكثرٌ من طريقةٍ لكل منها ناتج مختلف. 


YY 
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* المستوى الدلالي (Semantic Level)‏ في هذا المستوى» co‏ المعاني 
الحرفية للمفردات» ومن ثم تربط هذه ا معاني لتكوين معنى الجملة كاملة» وهو 
ما يعرف بالدلالة التركيبية Compositional Semantics) (Sternefeld)‏ 
Sternefeld, 2013‏ &(. لا dog‏ سياق الجملة أو مناسبتها في الحُسبان 
لاستخراج معناهاء وإنما يؤخذ المعنى الحرفي فقط. فجملة «بلغ السيل الزبى» 
تعني أن هنالك ماءً ارتفع ووصل الزبى. 

* المستوى التداولي :(Pragmatic Level)‏ في هذا «cS gl‏ تحال الحملة di‏ 
السياق والمقام الزماني والمكاني والاجتاعي الذي قيلت فيه وليس بالضرورة 
أن يكون مطابقًا للمعنى الحرفي للكلمات المكوّنة لها. و معرفة معنى الجملة في 
هذا المستوى» يحتاج المستقبل إلى استخدام معرفة إضافية خارج إطار المعرفة 
اللغوية «(Extra-linguistic Knowledge)‏ وهي المعتقدات (Beliefs)‏ التي 
لدى الشخص عن العالم. والتحليل على هذا المستوى ضروري لمعرفة المجاز 
اللغوي» والتعريض» والتلميح» وفهم الجحكم والأمثال والقصائد. وني هذا 
المستوىء على سبيل المثال» يعرف المعنى المراد لجملة «بلغ السيل الزبى»)» وهي 
أن الصبر قد ua‏ إذا لا ماء ارتفع ولا زبى موجودة في الواقع المشار إليه. 

° المستوى الخطابي (3:(DiscourseLevel)‏ هذا المستوى» يحلل الخطاب بمعالحة 
العلاقات بين الجمل المكونة له. فتحلل كل جملة وفق الجمل التي تسبقها لمعرفة 
تأثير تلك الجمل على وجود هذه الجملة. ويعمل تحليل المستوى الخطابي على 
معرفة ال هدف العام من الكلام والرسائل التي يحتويها. 

رکا هر ERE‏ ون قثن مانا ا راتک parera‏ 

تتركّب بع ا 4i jh (gd‏ 
كما هو موضح في الشكل Y‏ أدناه. كما أن المعالجة في كل مستوى قد تستخدم معلومات 
من المستوى الذي فوقه. فالإنسان يستخدم المعتقدات التي لديه لمعالجة اللغة في جميع 
المستويات بدءًا من الصوت وانتهاءً بالخطاب. وبعد المعالجة يحصل الإنسان على 
معتقدات إضافية تضاف لعتقداته السابقة أو تقوم بتغييرها وهو ما يُعرّف بتحديث 

. (Theory Revision) أو مراجعة النظريات‎ (Belief Updating) المعتقدات‎ 


E ic 
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الشكل :١‏ مستويات معالجة اللغة 


Y y Y‏ بعض عمليات مُعالجة اللغة في ختلف المستويات 

يعمل Jo ical E ut dO t Ul‏ ا ld‏ الراب 
اللغوية في تتاف المستويات الموضّحة في الشكل .١‏ ]3 إنه من الضروري العمل de‏ 
المستويات الذنياء مستويات الصوت والكلمة والجملة» لكي يمكن بناء أنظمة تعالج 
الل cob ll‏ العلياء col eS‏ النذاولية واللخطاب» esa dala y‏ فى هذا 
الجزء على بعض من PU‏ التي يعمل عليها الباحثون ومُطوّرو أنظمة معالجة اللغات 
الطبيعية. وأود التنويه إلى أنني هنا لا أغطي إلا جزءًا يسيرًا من هذه المهام وذلك لإيضاح 
المفاهيم والأفكار الرئيسية فقط؛ إذ لا يمكن شرح تفاصيل هذه المهام في «dea‏ ولا 
حتى في كتاب dels‏ 


جاع لات 


هذه الطبعة إهداء من المركز 
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تل التعرى الع يعمل gel‏ عل درا Jl ida cos dd Jod‏ 
كلياتٍ مكتوبة» وهو مايعرف بتطبيقات التعرّف على الكلام «(Speech Recognition)‏ 
أو تحويل الكلام إلى نصوص )2007 (Speech-to- Text) (Gales & Young,‏ 
ويتظلب العمل على هذا المستوى دراسة لتمطية الأصوات بحيث يمكن التعرّف عل 
الصوت بناءً على الأصوات المصاحبة له (معرفة صوت بناءً على الأصوات التى قبله 
مثلا). ومما يُساعد على التعرّف على الكلام أيضًا دراسة نمطية تسلسل «Usa‏ إذ 
إن دراسة هذه النمطية تساعد في معرفة الكلمة التى قيلت بناءً على الكلمات المصاحبة 
ها. ومن المهامٌ التي يعمل عليها الباحثون أيضًا توليد الكلام (Speech Synthesis)‏ 
أو تحويل النصوص إلى كلام Text-to-Speech) (Allen, Hunnicutt, Klatt,)‏ 
(Armstrong, & Pisoni, 1987‏ ودف هذا العمل على تطوير أنظمة تقرأ الملفات 
النصية. 


Ul‏ على مستوى مُعالجة الكلمة» OB‏ من أهم عمليات المعالجة في هذا المستوى هو 
التحليل الصرفي );2008 Morphological Analysis) (Jurafsky & Martin,‏ 
McCarthy, 2018‏ ). فمن خلال هذا التحليل؛ sad‏ الزوائد CAffixes)‏ التى تدخل 
على الكلمة والتى یمکن أن تكون في بدايتها (Prefixes)‏ مثل حرف الياء في كلمة 
«يذهب»» أو في وسظها (Onfixes)‏ مثل حرف الألف في كلمة «ذاهب»» أو في نهايتها 
(Suffixes)‏ مثل حرفي الواو والألف في كلمة «ذهبوا». فمن خلال التحليل الصرفي 
للكلمات السابقة يمكن معرفة أن هذه الكلمات ها نفس الجذر (Root)‏ وهو «ذهب). 
وتختلف المعالجة الصرفية باختلاف Call‏ منها. ففي تطبيقات استرجاع المعلومات 
(Information Retrieval)‏ مثلاء وهو المصطلح العلمي المستخدم للإشارة للتقنية 
التي E‏ عليها حركات البحث «Search Engines)‏ يقوم بعض eJ 535 dali‏ 
التطبيقات باستخراج mes‏ ر الكلمات لنصوص الاستعلام (Queries)‏ وذلك للبحث 
عن النصوص التي تحتوي على كلماتٍ ها نفس الجذور بدلا من مطابقة الكلمات كما 
هي. فلو أدخل المستخدم مثلًا الاستعلام «أعمال الحجاج»» فإنه بمطابقة النصوص 
التي فيها إحدى هاتين الكلمتين كا هماء سيسترجع النظام تلك النصوص التي تحتوي 
إحدى هاتين الكلمتين أو LANS‏ فقط» وسيستبعد نصوصاً لا تحتوي أيا منها ولكن 
c yx‏ على كليات مثل eom eC‏ عجرن وغيرها من مشتقات «حج). أما 
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بإعادة الكلمات في نص quem‏ وفي النصوص التي في قاعدة البيانات إلى dinde:‏ 
فإن GT‏ نص توجد فيه كلمة مُشتقة من CE‏ سيتعٌ استرجاعه وعَرْضه على الُستخدم. 
أما على المستوى التركيبي» فمن مهام العا السا ال ف على أجزاء الكلام 
(Parts of Speech)‏ للكليات )& Kübler & Mohamed, 2011; Manning‏ 
(Schütze, 1999‏ ومصطلح أجزاء الكلام غير مُستخدّم في دراسات اللغة العربية 
بشكل شائع» لكنه من المصطلحات المستخدمة في الدراسات المتعلقة ببعض اللغات 
"ns x‏ الإنجليزية. ويُشير مصطلح أجزاء الكلام إلى الأصناف التي يمكن 
تنسب إليها كلمات اللغة بناءَ على دورها التركيبي. على سبيل المثال» يمكن اعتبار 
هذه القامة: ام يناسن (ومتال ذلك 2345 اراتا انم dito) aset‏ .ذلك 
كلمة (GO‏ فعل» ضمير» حرف» صفة» حال» رابط (مثال ذلك واو العطف)ء 
أجزاء للكلام. ولا يوجد اتفاق RU‏ على مجموعة ثابتة لأجزاء الكلام للغة ماء بل إن 
هذه المجموعة قد XS‏ بحسب نوع التحليل ورؤية من يقوم بذلك. فقد يبدأ بعض 
الدارسين بمجموعة مُعيّنة ومن a‏ يقومون بإضافة أجزاء أخرى عند الحاجة. إحدى 
الجهات التي قامت بتبنى قائمة ة لأجزاء الكلام هو اتحاد البيانات HM à AUI‏ 
(Data Consortium‏ بجامعة بنسلفانيا بالولايات المتحدة الأمريكية. وتستخدم 
هذه القائمة لأكثر من لغة ومن ضمنها اللغة العربية. وهناك باحثون آخرون يتبتون 
مجموعة مختلفة من أجزاء الكلام للغة العربية بحسب المهمة التي يعملون عليهاء وآلية 
التحليل التي يستخدمونها 
Ul‏ المعالجة على المستوى الدلالي» فتتمثل في تحليل دلالة المفردات من خلال معرفة 
المفردات التى لما نفس المعنى» أو تلك التى ها معانٍ متقاربة Landauer & Dumais,)‏ 
Deerwester, Dumais, Furnas: Landauer, & ERT 1990‏ ;1997(. 
يمكن استخدام التحليل الدلالي في تطبيقات استرجاع المعلومات لاسترجاع النصوص 
التي تحنوي على كلماتٍ مُترادفةٍ للكلمات التي أدخلها cele‏ أو ها معان قريبة منها. 


-١‏ بحسب علم الكاتبء أنه في AXI‏ العربية يُستخدم مصطلح «أقسام الكلام» للإشارة إلى الأقسام الرئيسية فقطء وهي 
الاسم والفعل والحرف. 


2- https://www.ldc.upenn.edu/ 
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فبالعودة إلى المثال السابق وهو الاستعلام باستخدام العبارة «أعمال AH‏ يمكن 
من خلال التحليل الدلالي إعادة النصوص التي لا تتعلق بالحج فقط» بل حتى بتلك 
التى تتعلق بكلاتٍ قريبة منها دلاليا ك «العمرة» و «الطواف» و «السّعى»» LA os‏ 
فلك oe adi‏ المتعلقة ببعض المشاعر ك «مُزدلفة» و «متّى) و اعرفات)» بحكم قرب 
هذه المفردات دلاليًا من الحج. A‏ الإشارة إلى أن باحثين قاموا بتطوير قاعدة بيانات 
تحوي مفردات بعض اللغات» ym‏ العربية» وارتباطاتها الدلالية من حيث التراذف 
«jul Wr‏ والمفاهيم (Concepts)‏ التي تحملها هذه الكلات» والعلاقات بين هذه 
المفاهيم كالعّلاقة الحرمية» مثل العام والخاصٌ («رجل:إنسان»)» وعلاقة الجزء من الكل 
(«يد: جسم)). وتُعرّف هذه الشبكة بشبكة الكلمات (2020018/0102101. 

أما التحليل على المستوى التداولي» فهو من أكثر المهامٌ تحديًا. فبحسب معرفتي» 
أن الأبحاث في المعالجة على هذا المستوى محدودةٌ مقارنة بالأبحاث التي تُعالج اللغة 
في المستويات الأخرى. ولعل التطبيقات التي تهدف لمعرفة مقاصد الجمل وما يبنى 
عليها (Textual Entailment)‏ تعمل على هذا المستوى إضافة إلى المستوى الدلالي 
(Androutsopoulos & Malakasiotis, 2010)‏ . 


وفيم| يتعلق بتحليل الخطابء فإنه يستخدم لبناء كثير من التطبيقات» منها على سبيل 
«JUI‏ التلخيص «(Text Summarization) (Marcu, 2000) JY‏ وذلك بتحليل 
النص لاستخراج الجمل الأكثر ciel‏ والتي توصل المعنى الذي أراد الكاتب إيصاله. 
كذلك معرفة الولف (Author Identification)‏ وذلك من خلال تحليل النصوص 
التي كتبها اا i al‏ أسلوب (Writing Style) «tS‏ ومقارنة هذا الأسلوب 
بالنص الذي تتم معالجته لمعرفة ما إذا كان هو كاتب هذا النص آم لا. ومن التطبيقات 
أيضا تحليل النصوص لعرفة حقبها التاريخية وأحوال مؤلفيها عند كتابتهاء وغيرها من 
التحليلات التي يقوم بها SEN‏ الأدبيون يدويًا. 


1- https://wordnet.princeton.edu/ 


2- http://globalwordnet.org/resources/arabic-wordnet/ 
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Y , Y‏ طرق معالحة اللغة 
تتمثل عملية المعالحة في كوا dab f Cu‏ مجموعة من Mawai‏ 
X = (xiii‏ لتقوم ببعض العمليات عليها وتعيد قيمة Y‏ يمكن استخدامها 
لاتخاذ قراراتِ بخصوص القيم AEI‏ ففي معالجة اللغةء يمكن أن تكون المدخلات 
أصوانًاء في حالة معالجة الصوتء أو أحرّفَاء في حالة معالجة الكلمة» أو e‏ في حالة 
ihlas‏ النص» ويبقى السؤال هنا هو كيف بُمكين الوصولٌ هذه الدوال. 
من الطرق المستخدمة» والتي i‏ استخدامها خالا TEE EI‏ 


- 


(Expert Systems) (Giarratano & Riley, 2004)‏ ود تبنى هذه E‏ ببريحة قواعد 


2 ور 


المعالجة (والتي تكون عادة جملا منطقية بصيغة إذا-فإن) وتكون الدالّة في هذه ال حالة 
هي هذه القواعد. فمثلا في تطبيقات التحليل الصرفيء يقوم المطورون ببرمجة قواعد 
التحليل الصرفي للغة يدوياً» كذلك الحال في التحليل التركيبي» حيث تبرمج قواعد 
الت S.‏ ك و كه ع هذه E‏ .هن A‏ و لدا اشا و اج اة 
الطريقة صعوبات كثيرة» من أهمّها كثرة قواعد التحليل وتعقيدهاء إضافة إلى وجود 
حالات كثيرة في اللغة مثل بعض الأساء التي تحتاج إلى مُعالجحة خاصّة. فعلى سبيل 
(JUN‏ هنالك نوع من التحليل يندرج تحت التحليل الصرفي-التركيبي Morpho-)‏ 
.(syntactic Analysis‏ وإحدى المهام في هذا التحليل ما يعرف بتقطيع الكلمة 
«(Word Segmentation)‏ وفيه تقصل الأجزاء التى لها دور تركيبى» أي f‏ تأخذ أحد 
أجزاء الكلام Ée «(Part of Speech)‏ قبلها أو dads‏ مثال ذلك كلمة «ويذهبون). 
فإنه في هذه الكلمة تفصل الواو في بداية الكلمة «و» والتي تأخذ أحد أجزاء الكلام 
(وهو هنا رابط كونها عطفا)ء وكذلك تفصل الواو والنون «ون» في نهاية الكلمة والتي 
تأخذ أيضًا جزءًا من أجزاء الكلام (وهو هنا اسم بحكم عملها كفاعل)» ea‏ لا تفصل 
الياء «ي» في «يذهب) لأنه ليس ها دور تركيبي وليس لها جزء من أجزاء الكلام» على 
الأقل à‏ قائمة أجزاء الكلام المعتمدة لدى اتحاد البيانات اللغوية. يمكن ملاحظة أن 


-١‏ ليس شرطا أن تكون الدالة كمية (تعالج أرقامًا). فقد تكون دالة منطقية أو غير ذلك. المهم هو أن تأخذ تعريف الدالة 
وهي أن تحول كل مدخل إلى خرج واحد فقط. 
=Y‏ سنشير glo‏ بالحرف الإنجليزي العريض لتغير يُمثل مجموعة من القيم (مجموعة أو nen‏ بينما سنشير بالحرف 


العادي إلى متغير يأخذ قيمة واحدة. 


—YA- 
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هذا التحليل مختلف عن التحليل الصرفي الذي Cae‏ لاستخراج جذر الكلمة: |3 إنه 
في ذلك التحليل تفصل الياء أيضًا. أما في هذا التحليل فيكون الناتج «و- -يذهب- 
de de de dues‏ الال Laf‏ كلمة «(واهم)» من الهم Ls,‏ أن قواعد التحليل 
برجت لفصل الواو في بداية الكلمة Ce‏ بعدهاء فإن هذه القاعدة لن تستطيع التفريق 
بين الواو التي من أصل الكلمة وبين واو العطف. فتقوم بفصل الواو في «واهم» لتنتج 
«و- -اهم». هذا في الصفات والأحوال وأسماء الأجناس» اي 
الأعلام (Named Entities)‏ وهي أسماء الأشخاص والأماكن والمنظات. فلو وردت 
أيضا كلمة «الوليد؛ كاسم شخص في أحد السياقات» فقد تُحلل أيضًا وفق قاعدة فصل 
الألف واللام «ال» لتكون «ال- -وليد)» les‏ من yí NEXT‏ تُفصّل هنا کون الكلمة 
في هذا السياق اسم ele‏ وليست صفة. لذا فإننا في برمجة قواعد المعالجة نحتاج أن نأخذ 
كل هذه الاعتبارات في الحُسبان» وهذا أمر صعب جذا لعدم محدودية الكلهات» والتي 
تعتبر لامنتهية» إذ تدخل للغة كلات جديدة بشكل مستمر» ولاختلاف السياقات 
التي تستخدم فيها الكلمة الواحدة» والتي ربا يختلف تحليل الكلمة بناءً عليها. ومن 
الصعوبات أيضًا عدم وجود قواعد تحليل معروفة يُمكين برمجتها في كثير من التطبيقات؛ 
ففي s‏ من تطبيقات تحليل الخطاب مثلاء لا يوجد قواعد ثابتة معروفة م متفق عليها 
يمكن برمجتها la Je‏ التحليل» فلا يوجد قواعد ثابتة للتلخيص أو قراءة أسلوب 
الكتابة للتعرف على الْمؤلف. 


Y ۳‏ تعلم ANI‏ 
ولتجاوز الصعوبات التي تواجه استخدام الأنظمة الخبيرة» يتوجّه كثيرٌ من المطورين 
والباحثين إلى استخدام خوارزميات تعلّم الآلة «Machine Learning)‏ والتي ag‏ 
إلى تُخاكاة التعلم البشري. ففي حالة معالحة اللغة» فإن هذه الخوارزميات تحاكي عمليات 
تعلم اللغة التي أشرنا إليها في بداية هذا الفصل» إذ تمدف إلى استقراء دوال معالحة 
اللغة من خلال الأمثلة التي تعطى ها اففي حالة التحليل الصرفي مثلاء تعطى هذه 
الخوارزميات مجموعة من الكلمات iei‏ صرفياء لتقوم هذه الخوارزميات باستقراء 
falls‏ تحاكي دالة التحليل الصرفي التي يستخدمها الإنسان. ونقول هنا «تحاكي» UN‏ 


-١‏ الإشارة فوق الدالة ترمز إلى Gel‏ دالة مُقدرة» وليست هى الدالة الحقيقة. 


EL 
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لا نعرف على سبيل اليقين كيف يقوم الإنسان بهذه العمليات. وللحصول على هذه 
الدالة» تقوم الخوارزميات ole‏ بإجراءٍ يُسمَّى البحث والتقييم Search and Score)‏ 
ففي عملية البحثء تقوم الخوارزمية بالبحث في فضاء يشار إليه بفضاء البحث Search)‏ 
(Space‏ والذي يحتوي مجموعة من الدوال» عن دالة يمكن استخدامهاء وأثناء الانتقال 
بين الدوال في هذا الفضاءء تقيم كل دالة يُوصل إليها لفحص كفاءتها. يوجد العديد من 
الطرق المستخدمة في تقييم الدوال» والتي لا تتسع المساحة هنا لشرحهاء لكن العامل 
المشترك هذه الطرق هو الأخذ في الاعتبار كمية الأخطاء في النتائج التي تعطيها الدالة. 
لذا #بدف عملية البحث والتقييم إلى الوصول لدالة تعطي الكمية الأقل من الأخطاء 
على اللغة مطلقًا. ولكن المشكل هنا يكمن في صعوبة إثبات أن دالة ما ها الكمية الأقل 
من aa ea MI‏ إذا ei]‏ تي وإن أعطف دالة ما الكبية الأقل من الاخطاء Je‏ 
مجموعة من الظواهرء فإنها قد لا تعطي الكمية الأقل من الأخطاء على مجموعة أخرى. 
حبك oj‏ إثنات o od‏ ماعط Ia SII‏ من las els VI‏ طب ري جيم 
الدوال وإظهار نتائجها على اللغة كاملة» والتي تحتوي على عدد لامنته من الظواهر. 
وهذا يتطلب البحث والتقييم في فضاء مطلق لامنتو من الدوال مع تقييم كل دالة في 
هذا الفضاء على اللغة كاملة» وهذه عملية غير منضبطة وغير قابلة للتطبيق. لذا فإنه في 
عملية البحث والتقييم» محصر فضاء البحث وذلك بوضع افتراضات مسبقة 
(Assumptions)‏ عن نوعية الدالة وشكلها وصيغتهاء وهذا ما يُعرّف بالانحياز 
الاستقر ائئي (Inductive Bias)‏ أو انحياز التعلم Learning Bias) (Mitchell,)‏ 
27. مع العلم أنه حتى بعد وضع هذه الافتراضات» فإن فضاء البحث قد يبقى 
لامنتهيًا ولكنه فضاء فرعي من الفضاء المطلق ومنضبط ومحصور في دوال مُعَرَفة. وبدلًا 
من البحث عن الدالة التى تعطى العدد الأقل من الأخطاء مطلقاء يُبحث عن دالة 
as‏ عد قليكة من Y cellas MI‏ جاوز Ue‏ كانه dues de qa‏ الط اهر 
اللغوية. والاختلاف في طرق تقييم الدوال يرجع إلى الاختلاف في كيفية تحديد هذا 
ALl‏ وني كيفية استخدام عدد الأخطاء في تقييم الدالة. لذا فإن استخدام الانحياز 
الاستقرائي هو ما يفسر وجود عدد كبير من خوارزميات التعلم. 
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وسأوضح هنا فكرة الانحياز الاستقرائي بمثالٍ”". لو أردنا تصميم خوارزمية 
لتعلم دالة لمهمة تقطيع الكلمةء والتي شر حناها في الجزء السابق» فيمكن بداية وضع 
الافتراضات التالية: 


المدخلات إلى الدالة هي أرقام من مجموعة الاعداد الطبيعية تُثل الأحرف 
الهجائية تسلسليّاء أي أن الحرف «أ» له القيمة Y‏ والحرف «ي» له القيمة YA‏ 
عدد الدخلات إلى الدالة خسة مدخلات» إحداها يُمثل الحرف الذي نريد أن 
نقرر بشأنه ما إذا كان يجب أن يفصل Ce‏ بعده أم لاء والأحرّف الأربعة الأخرى 
هى الحرفان اللذان قبله» والحرفان اللذان بعده. فلو أخذنا كلمة «يذهبون» CS,‏ 
cnl o Sa RE‏ روف 7ق ,26,9 ,2( اميت o]‏ 
الرقم الأول هو نمثل الحرف الذي تحت المعالجة» والأرقام الأخرى تمثل الحرفين 
الذين قبله» والحرفين الذين بعده تسلسليا. 
c‏ الدالة يجب أن يكون عددًا حقيقيًا أكبر من 0» إذا كان ما بعد الحرف 
الذي تحت المعالجة يجب أن يفصلء أو أصغر من 0 إذا كان ما بعده يجب ألا 
يُفصّل. ففي المثال الذي في النقطة السابقة» من المُفترض أن تكون قيمة الدالة 
للمُدخلات 0 > (27,25 ,26 ,2,9) لأن ما بعد الباء يجب أن يفصل 
بحيث تكون الكلمة «يذهب- -ون»» أما إذا كنا تُعالج الحرف «ه) فتكون 
المدخلات وقيمة الدالة كالتالي 0 > )2,27 ,28,9 ,26)/ « OY‏ ما بعد Ca)‏ 
يجب ألا يفصل. 
الدالة coe‏ أي أنها تأخذ الصيغة التالية: 

Ê (0(0) = w.%(x) +b 


 *‏ عددالآخطاء التى تعطيها الدالة جب ألا تزيد تشيعه عن / من ade‏ الظواهر 


التي تقوم بمعالحتها. 


١‏ - هذا المثال توضيحي فقطء ولا يهدف إلى شرح الطريقة Jl‏ لحل مهمة تقطيع الكلمة. 
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هذه الافتراضات هي الانحياز الذي وضعناه لخوارزمية التعلم والتي تحصر البحث في 
فضاء الدوال الخطية فقط وفق القيود الأخرى imb al‏ في النقاط أعلاه. ففى هذه الحالة» 
ستكون عملية البحث مُقتصرةً على إيجاد قيم W coU‏ و b‏ والتي تبعل الدالة 
تعطينا Bae‏ قلاا من الأخطاء في تحديد الحرف الذي يجب فصل ما بعده أم -Y‏ يمكن 
ملاحظة أن فضاء البحث هنا يبقى Cea‏ أيضًا حتى بعد وضع هذه الافتراضات» ]3 إن 
هنالك عددًا لامنتهيًا من القِيّم التي من الممكن أن تأخذها W‏ و“ ط» وهو فضاء الأعداد 
الحقيقية» ولكنه أصغر بكثير من الفضاء المطلق الذي يحتوي على جميع الدوال. كما يمكن 
ملاحظة أن الدالة لا تأخذ المدخلات الرئيسية» وهى الأحرف» وإنا تأخذ مدخلات 
أخرى تمثل هذه ecd e MI‏ وهي الأرقام المقابلة ها. لذا فإننا في كثير من الخوارزميات» 
نحتاج إلى دوال مُساعدةٍ تقوم بتحويل المدخلات الرئيسية إلى مدخلات أخرى تعمل 
عليها الدالة التى نبحث po Age‏ هذه العملية بتحويل الخصائص Feature)‏ 
Transformation‏ وفي المثال أعلام» فإن الدالة «D‏ هي التي تقوم هذه المهمة. 

وخوارزميات التعلم o‏ العمل عليها مُتعددة» إذ لا يمكن حصرها في فصل ولا 
حتى في كتاب واحد. ومن أبرز هذه الطرق« الشبكات العصبية «(Neural Networks)‏ 
وهي نماذج رياضية تبنى لتحاكي النظام العصبي للإنسان. إذ إن كل خلية عصبية تمثل 
دالة وتكون الشبكة بكاملها دالة مُركبة من مجموعة الدوال الأساسية التي تمثلها الخلايا 
العصبية. ومن أبرز الطرق الأخرى أيضا الطرق الاحتتالية» وهي ما سنتطرق له في 
الجزء التالي» وكذلك التعرف النمطي في الفضاء الدلالي» وهي ما سنختم به هذا الفصل. 


۳-الطرق الاحتمالية في تعلم الآلة 

أشرنا في حديثنا عن صعوبة استخدام النظم الخبيرة إلى كثرة قواعد اللغة وتعقيدهاء 
إضافة إلى أن بعض قواعد المعالجة غير معروفة على سبيل اليقين. وهذا ما يجعلنا نضطرٌ 
إلى معالحة كثير من التراكيب اللغوية مع عدم اليقين (Uncertainty)‏ بصحة AL UI‏ 
لهذاء فإننا في هذه الحالة» نحتاج أن نصل إلى المعالجة الأقرب للصحة. ولكي نستطيع 


-١‏ ومع ذلك» فإنه يمكن الوصول للدالة التي تحقق الشروط المعطاة إن كانت موجودة وذلك باستخدام طرق رياضية 
مشو رة )2004 (Boyd & Vandenberghe,‏ 
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تحديد القرب والبعد من صحة المعالجة» فإننا نحتاج إلى وضع معيار AS‏ لدرجة 
الشك. فلو أخذنا المثال الذي ذكرناه في الغموض التركيبى» وهو تحديد قراءة ila‏ 
«رأيت الرجل جالسًا)» فإن درجة الشك لدينا بأن المراد هو القراءة الشائعة: 
أقل بكثير من درجة الشك ol‏ اراد هو القراءة الشاذة: 
ذلك لأن القراءة الأولى هي الَعنيّة في الغالب» ولكن لا يمكن القول بأن القراءة 
الأولى هي المرادة على سبيل اليقين. 
ومن النظريات الُستخدمة لقياس درجة الشك بشكل كمي نظرية الاحتمالات 
(Probability Theory)‏ ولنظرية الاحتمالات تأصيلٌ رياضيٌ يمكن الرجوع إليه في 
(Casella & Berger, 2001)‏ ليكن x‏ و y‏ حدثين ولتكن P‏ دالة احتمالية» فإنه: 
* إذا كان x‏ حدثًا مستحيل الوقوع. مثلًا pax‏ عدم وجود حرف عربي في كلمة 
عربية)» فإن 0 = PŒ)‏ 
* إذا كان × deu Ga‏ مثلا X‏ هى «وجود حرف عربي في كلمة عربية»» OB‏ 
.P() - 1‏ 
I] *‏ كان x‏ حدثًا مشكوكًا في وقوعه. مثلا × هو «وجود حرف الضاد في كلمة 
caue‏ فإن1 < P (x)‏ > 0 بحيث إنه إذا كان y‏ حدثا cl‏ مثلا برهو اوجود 
حرف الماء في كلمة عربية»» فإنه إذا كان شكنا بوقوع × أقل منه بوقوع Y‏ 
Pœ) <> Pob‏ 
alrae ©‏ دولا Qus‏ مكاء معلا x‏ هر «أن تدأ كلمة ما 
بحرف الواو» و OD ua y‏ تبدأ كلمة ما بحرف التاء»» ol‏ احتمال حدوث أي 
من الحدثين هو P(x V y) = PG) + PQ))‏ . 
* يعتبر الحدثانِ ×و ر (Independent) AT‏ إذا كانت معرفتنا بوقوع أحدهما 
لا تُغير من شكّنا بوقوع الآخر. مثال ذلك لو كان لدينا نصان مختلفان T, T,‏ 
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وكان x‏ هو «وجود كلمة -الذكاء- في !27 و:زهو «وجود كلمة -الاصطناعي- 
في TP,‏ ففي هذه الحالة يكون احتمال وقوع الحدث x‏ بعد معرفتنا بوقوع الحدث 
ال ويرمز له بالرمز PY)‏ هو نفسه احتمال وقوع × أي (م) ط = P(xly)‏ 

* يعتبر الحدثان × و رر مرتبطین (Associated)‏ إذا كانت معرفتنا بوقوع أحدهما 
تُغير من شكنا بوقوع الآخر. مثال ذلك لو كان لدينا نص T‏ وكان X‏ هو 
«وجود كلمة -الذكاء- sn ys IT (à‏ «وجود كلمة -الاصطناعي- GUT‏ 
هذه الحالة OB‏ احتمال وقوع الحدث ‏ بعد معرفتنا بوقوع الحدث ل AA‏ عنه 
قبل معرفتنا بوقوع o‏ أي () ط * (7[|ت) 5. . 

* احتمال وقوع الحدثين x‏ و رمع بعضههماء ونرمز له بالرمز P(X ۸ y)‏ 


P(x ^ y) = PO) * P(x|y) 
وضعنا القواعد أعلاه على حدثين فقط بهدف تبسيط الشرح» ولكن يمكن تعميمها‎ 
بنفس المنهجية على أكثر من حدثين. تستخدم القواعد أعلاه لمعالجة الظواهر اللغوية‎ 
وذلك باختيار الحدث الذي له‎ (Reasoning under Uncertainty) مع عدم اليقين‎ 
الاحتمال الأكبر. فبالعودة إلى مثال الغموض التركيبى» فعند حساب احتمال القراءتين»‎ 
٠ فإننا سنختار القراءة الشائعة:‎ 
) ] (ال رجل) (جالسا)‎ 1 Go («رأى‎ 
احتمال حدوثها أكبر من احتمال حدوث القراءة الشاذة.‎ oY 
Probability) el دور خوارزميات تعلم الآلة في استقراء دالة التوزيع‎ gis 
ا والمرتبطة‎ cota MI لماء وذلك بتحديد‎ p" من الأمثلة التي‎ (Distribution 
Structure) Jg I هذه المهمة بتعلم بنية التوزيع‎ cia في البيانات العظاة‎ 
وتعرف هذه المهمة بتقدير‎ ela SU وكذلك تحديد القيم الاحتالية‎ (Learning 
التوزيع‎ iz وني كثير من الاحيان» تكون‎ (Parameter Estimation) المعطيات‎ 
الاحتم الي معروفة» ويقتصر استخدام تعلم الآلة على استقراء القيم الاحتالية للأحداث‎ 
فقط. وفي الجزء التالي» تُلقي الضوء على أحد النماذج الاحتمالية المستخدمة بكثرة وهي‎ 
نماذج ماركوف الخفية.‎ 
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Y S ١‏ نماذج ماركوف الخفية 
نماذج ماركوف الخفية (Hidden Markov Models -HMMs)‏ هي ناذج احتالية 
تستخدم لتمثيل توزيعات احتمالية ها الخصائص التالية (:1986 Rabiner & Juang,‏ 

:(Cappé, Moulines, & Ryden, 2007 

dus t‏ آأخدات #سلسلة Rd‏ (غير llano, (ages‏ غلبها هنا الات 
c(States)‏ بحيث تكون كل حالة مرتبطة بالحالة التي قبلها. فلو كانت $t‏ 
حالة وقعت في ob oyl‏ الحالة St+1‏ والتي تقع في الزمن الذي بعده 
مباشرة 1+ #غير مستقلة عنها. أي أن: 

P(st+1lSt) * P(St+1) 

* يوجد أحداث ظاهرة (حسوسة)» وسنطلق عليها هنا انبعاثات (Emissions)‏ 
بحيث يكون كل انبعاث © في زمن fU‏ مرتبط بال حالة الخفية في نفس الزمن S‏ 
أي أن: 

P(orls;) + P(o) 


يُمكن تخيّل نموذج ماركوف الخفي على أنه آلة ها هذا السلوك (الشكل CY‏ 
uae »‏ تشغيلها تنتقل من حالة البداية ,5 إلى حالة ما ,5 لا نشعر بها وَفق توزيع 
.P(s, |50( dice‏ وبعد انتقاها إلى هذه الحالة تطلق انبعاثا,» محسوسًا وَفق 
توزيع P(04|51) dle‏ 
* ثم بعد ذلك تنتقل إلى حالة أخرى رك وفق توزيع Miel‏ يعتمد على حالتها الآن 
وهو (5)52|51. ثم بعد انتقاها هذه ا حالة طاق انبعانًا محسوسًا ,© وفق توزيع 
.P(05|s2) die‏ 
* وتستمرٌ في هذه العملية إلى أن تتوقف. 
نلاحظ هنا أن انتقال الآلة من حالة إلى حالة» والانبعاثات التي تخرج من كل حالة» 
جميعها ليست يقينية. فلو كانت الآلة في JULI‏ الأولى eS,‏ فإنها يمكن أن تنتقل إلى أ 
حالة من # من الحالات 52 ,.... 2 S1,‏ المرحلة التي تليها. وكذلك قد تطلق أ 
انبعاث من m‏ من الانبعاثات 077 ,..... 02 ,01. ولكن Al‏ الانتقال إلى الحالات 
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تختلف. فقد تكون احتمالية الانتقال إلى حالات معينة أعلى منها إلى الأخرى. فمثلا لو 


الشكل ؟: رسم EË‏ لناذج ماركوف الخفية. 


P(s; = sł|s1) = 0.6‏ و 0.03 = P(s, —s2|s)‏ 
فإن اعتقادنا بأن الحالة الثانية يمكن أن تكون +5 أكبر منه بأن تكون الحالة S2‏ 
والحال نفسه بالنسبة للانبعاثات. OS]‏ فإنه لا يمكن معرفة ما هى حالات الآلة بشكل 
يقيني» أما بالنسبة للانبعائات فيمكن معرفة الانبعاثات التي ظهرت ولكن لا يمكن 
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معرفة الالبداقات الى سف ن الل غل eds a‏ العمليات رف 
في أدبيات الاحصاء والاحتالات بالعمليات العشوائية”" (Stochastic Processes)‏ 


هذا النموذج التخيّلٍ يمكن تطبيقه على معالجة كثير من الظواهر اللغوية. ولنأخذ 
مثالا وهو استنتاج أجزاء cols ps‏ الموجودة في الْجُمّل Part of Speech)‏ 
(Tagging‏ فأجزاء الكلام تعتبر حالات خفية غير موجودة في النص. حيث إن النص 
لا يحتوي سوى الكلمات والتي يمكن اعتبارها هنا انبعاثات تخرج من أجزاء الكلام. 
فالحالة الخفية «فعل»» على سبيل ال مخال» قد يخرج منها انبعاثات كثيرة وهي جميع الأفعال 
التي يعرفها الكاتب («ذهب)»» «أكل»» epo‏ إلخ)» ولكن وفق احتمالات مختلفة» إذا 
أخذنا في الاعتبار أن بعض الأفعال أكثر شيوعًا من الأخرى. وكذلك op‏ الانتقال 
من جزء كلام إلى جزء كلام آخر يتم وَفْق ed‏ احتمالية مختلفة. فاحتمال الانتقال من 
حالة «فعل» إلى حالة «اسم» (أن يكون هنالك فاعل) ربا أعلى منه في الانتقال إلى 
حالة «حرف» (أن يكون الفاعل ضميرًا مستترًا). يمكن اعتبار أن الكاتب يمر بعملية 
توليدية (Generative Process)‏ أثناء كتابته للجمل ننس العحطلية ال غر با الال 
التى شر حناها في الأعلى. وهي أنه يبدأ الجملة بالانتقال من حالة البداية إلى واحدة من 
أجزاء الكلام. ثم يقوم بتوليد كلمةٍ بناءَ على جزء الكلام الذي اختاره» وهي ما نراه في 
النص. ثم ينتقل إلى جزء كلام آخر بناءً على الجزء الحالي. وبعد انتقاله يقوم بتوليد كلمة 
أخرى بناءً على هذا الجزء الذي انتقل إليه. وهكذا حتى ينتهى من توليد الجملة كاملة. 
يمكن استنتاج أجزاء الكلام للكلمات في جملة ماء وذلك باختيار سلسلة أجزاء الكلام 
برك ,... S2‏ ,81 التى ها القيمة الاحتالية الأعلى وَفْق الدالة الاحتالية أدناه» والتى 
س احتال مرور الكاتب بسلسلة من أجزاء الكلام أثناء توليده لجملة مكونة من 


104502; ...., On الكليات‎ 


P(s A S2 A ...A Sp ^01 ^02 ۸ ...^ On) 


-١‏ يطلق عليها «عشوائية» مجارَّاء لكنها (CS‏ هو مُلاحظ ليست عشوائية بشكل مطلق» إذ إن احتمالات الأحداث مختلفة. 
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Y‏ و" التعرف النمطى في الفضاء الدلالي 

یعرف التعرّف الفط (Pattern Recognition)‏ بشكل ختصر على أنه التعرّف 
على الظواهر من خلال بعض الأنماط التي تصاحبها. وني معالحة اللغة» هنالك العديد 
من الأناط التى تصاحب بعض الظواهر اللغوية والتى من الممكن استخدامها للتعرف 
على وجود هذه الظواهر. فعلى سبيل المثال» في تطبيقات التعرف على اولّفء يمكن 
تحليل مقالات غدّة للمؤلف للتعرّف عل بعض الأنباط التى يستخدمها في أسلوب 
كتابته (الكلمات» تراكيب الجمل؛ طول e aded‏ استخدام الروابط؛ الإملاءء وغيرها)» 
ومن نّم يُبحث عن هذه الأناط في مقالةٍ مجهولة الولف لمعرفة إمكانية أن تكون هذه 
المقالة قد كتبت بواسطته أم لا. قد تكون الأنماط التي يُبحث عنها غير معروفة» وفي هذه 
الحالة تستخدم خوارزميات تعلم الآلة لتعلمها من مجموعة كبيرة من النصوصء وقد 
تكون هذه (MI‏ معروفة» وفي هذه الحالة تبرمج دالة التعرف عليها مباشرة. وهذا 
الجزء يدف إلى إعطاء فكرة ibi‏ عن إحدى hal‏ طرق التعرّف النمطي المستخدمة في 
المعالحة الدلالية والتى E‏ بتحليل الدلالة الكامنة Latent Semantic Analysis))‏ 
((Landauer & Dumais, 1997; Landauer, Foltz, & Laham, 1998‏ والتى لها 
العديد من الاستخدامات من أهمها معرفة الكلمات والسياقات المرتبطة BOT‏ 
إحدى النظريات المطروحة في علم الدلالة تنص على أن: 

* المترادفات أو الكليات التى لما معان متقاربة (مثلا: «عربة:سيارةاء 
«طائرة :سيارة)» (co Lacs an‏ تتواجد عادة في سياقات متشابهة» أي آنا 
قاط عا شين الجمرعة م csl‏ 
فعلى سبيل المثال» نرى أن كلمتَيْ «طائرة» و «سيارة» قد تظهر في هذه الجمل: 
«سافرت بالطائرة أنا وصديقي». 
«ركبتٌ الطائرة حوالي الساعة الثانية عشرة». 
«سافرت بالسيارة مع عائلتي». 


ركيت السيارة قبل فيل 


EX 
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وهذه الجمل يوجد بينها تقاطع كبير في الكلمات التي تشير إلى نفس المفاهيم. 
لذا فإن هذه النظرية تصتف تحت فرع في علم الدلالة يُسمَّى بالدلالة التوزيعية 
(Distributional Semantics)‏ والذي Ue‏ بدراسة المكونات الدلالية وتوزيعها 
في النصوص. يمكن اعتبار أن السياقات المتشابهة لكلمتين هي أحد الأناط التي من 
خلالها يمكن معرفة تقارب هاتين الكلمتين o‏ أي Cel‏ مرتبطان بنفس المفهوم 
(Concept)‏ كما أنه يمكن اعتبار أن كمية الكلمات المتشابهة في السياقات مؤشرا على 
مدى ارتباط هذه السياقات دلاليًا. وفي تحليل الدلالة الكامنة» تمثل الكلمات والسياقات 
في مصفوفة بحيث تكون الكلمات هي صفوف المصفوفة» والأعمدة هي السياقات التي 
ظهرت فيها هذه الكلمات» (CS‏ هو موضح أدناه. ويطلق على هذه التمثيل الفضاء الدلالي 


(Semantic Space) 


سياق 
Û ein d,‏ 
كلمة 
١ 1‏ 1 
١ ١‏ 2 
LA T 0‏ 


تمثل خلايا المصفوفة عدد مرّات ظهور الكلمة التي في الصف في السياق الذي في 
العمود”". فمثلا من خلال dota‏ عه نخد اه الكلمة w,‏ ظهرت مرتين في 
السياق ,4 ولم تظهر ولا مرّة في السياق edy‏ وهكذا. يُذكر أن السياق قد يكون Jla‏ 
أو مقطعًاء أو جملة» أو أي جزء 2d‏ من النص» وذلك بحسب Gabl‏ من المعالجة. 
فلو أشرنا إلى المصفوفة أعلاه بالرمز Anm‏ والتي تحتوي n‏ من الكلمات ظهرت في 


-١‏ غالبًا لا يستخدم عدد ظهور الكلمة» [C]‏ يستخدم وزن الكلمة في السياق. وهنالك طرق متعددة لوزن الكلمة يمكن 
الرجوع إليها في )1999 (Manning & Schütze,‏ ولكن استخدمنا هنا عدد ظهور الكلمة لتبسيط الشرح. 
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n‏ من السياقات» فإن تحليل الدلالة الكامنة يقوم أولا بتحليل هذه المصفوفة إلى ثلاث 
مصفوفات باستخدام تحليل رياضي يعرّف بتفكيك القيمة المفردة Singular Value)‏ 
(Decomposition -SVD‏ كالتالى: 


T (» 
Anm = Unj * Sij * (Dmg) 


حيث إن المصفوفات الثلاث أعلاه هى عوامل (Factors)‏ للمصفوفة الرئيسية 
Anm‏ ومن خلال هذا التحليل» تمثل المصفوفة ر Uy‏ الكلمات في المصفوفة الرئيسية 
ولكن à‏ فضاء مختلف T Cen‏ من v‏ الأبعاد «(Dimensions)‏ كالتالي: 


eee 
Dimi | تعاس عونو‎ Dim, 
كلمة‎ 
; -ه.١‎ y 
" و‎ —*,0 
Wa t Y 


ونفس ال حال بالنسبة للمصفوفة Dm,‏ التي تمثل السياقات في نفس الفضاء. هذا 
الفضاء الجديد المكوّن من j‏ من الأبعاد يمثل فضاء المفاهيم وهو المشار إليه بكلمة 
«الكامن» في اسم طريقة التحليل» إذ إن هذا الفضاء غير ظاهر في الفضاء الدلالي 
الأصلي في المصفوفة الأصلية وإنها ظهر بعد تحليلها. في هذا الفضاء تتقارب الكلمات 
المرتبطة GY‏ والتي تظهر عادة في نفس السياقات» وتكون قريبة من بعضها KS‏ هو 
موضح في الشكل E‏ وكذلك الخال بالنسبة للسياقات التي تشير إلى نفس المفاهيم. 
يمكن الحصول على الكلماتء أو السياقات. المتقاربة دلاليًا في هذا الفضاء من خلال 
استخدام دالة لحساب بعد المتجهات عن بعضهاء حيث إنه كلما اقترب متجهان 


-١‏ الترجمة هنا من الإنجليزية إلى العربية اجتهاد مني وقد لا تكون هي الترجمة المستخدمة في أدبيات الرياضيين العرب. 


d icm & e 4‏ 
DT -Y‏ هو منقول المصفوفة D‏ والذي يعني تبديل الصفوف إلى أعمدة والأعمدة إلى صفوف» فتكون Dim.‏ = ز2 
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لكلمتين أو سياقين من بعضها في هذا الفضاء ازداد الارتباط الدلالي بينهما. ومن الدوال 
MES‏ خدم لحساب alls egeta‏ 6 الشهيرة» والتى تقيس الزاوية بين 
متجهين u,u;  :يلاتلاك 2 ui‏ 


cosine(0) = fu, |* [u] 
1 2 


القياسى) فماء و [ui]‏ هو طول المتجه uj‏ يُذكر أنه كلها قلّت الزاوية بين المتجهين 
اقتربت قيمة الذالة من A‏ 


الشكل ۳: تقارب الكلمات التي ها نفس المفاهيم في الفضاء الدلالي الكامن. هنا افترضنا أن أبعاد 
الفضاء ثلاثة فقط ليسهل تمثيلها بصريًا. 
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5:-الخاتمة 

اللغة البشرية نظام مُعقد يمكن من خلاله s]‏ عدد لامنتو من التراكيب اللغوية. 
ويدف الباحثون في الذكاء الاصطناعي إلى فهم الإدراك البشري» ومحاولة محاكاته؛ 
وذلك بتطوير أنظمةٍ حاسوبية يمكن أن تعالج اللغة البشرية في ختلف مستوياتها. 
وبدف هذه المعالجة في النهاية إلى تمكين الإنسان من التخاطب مع الآلة باستخدام 
اللغة التي يتخاطب بها مع أقرانه» ولكن هذا الهمدف يواجه تحديات كثيرة اطلعنا في هذا 
الفصل على جزء منها. وهذه التحديات موجودة في جميع مستويات معالحة اللغة بدءا 
من معالجة الصوت وحتى معالجة الخطاب. وتتركز أبرز الطرق المستخدمة حاليا في 
معالجة اللغات البشرية حول استخدام تعلّم الآلة والتعرف النمطي. ويعكف الباحثون 
في dte‏ تعلّم الآلة والتعرف النمطي على محاكاة تعلم الإنسان وطريقته في التعرف 
على الأنماط» ومن ثم محاكاة هذه الطرق وتطبيقها على مجالات عدة من ضمنها معالحة 
اللغات البشرية. وبالرغم من صعوبة الوصول إلى تطوير أنظمة حاسوبية يمكن أن 
تحاكي استخدام الإنسان للغة البشرية بشكل عام إلا أن الباحثين نجحوا في تطوير 
العديد من الأنظمة التي تعالج مهام حددة كفك الغموض التركيبي» أو التحليل 
الصرفي» أو تلك المتعلقة بالمخطاب. 
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وتقدير 

الشكر لله سبحانه وتعالى FSÍ‏ على تيسيره وإنعامه» ثم الشكر للوالدين الكريمين 
لدعمها الدائم. بودي أن أتقدّم بالشكر للأساتذة د. إبراهيم الخراشي» د. محمد 
الكنهل» ود. منصور الغامدي على جهودهم المبكرة في دعم العمل البحثي على معالحة 
اللغة العربية في مدينة الملك عبدالعزيز للعلوم والتقنية. كا أتقدَّم بالشكر للأستاذة 
سارة العسكر على مُراجعتها اللغوية لهذا الفصل. أود أن أشكر جميع من عملت معهم 
في مدينة الملك عبدالعزيز للعلوم والتقنية على مشاريع في جالي تعلم UYI‏ ومعالجحة اللغة 
العربية والتي كانت سبباً في تعلم الكثير. 


أخيرًا وليس dod‏ أشكر زوجتي وأولادي على تفهمهم انشغالي المستمر خلال 
كتابة هذا الفصل. 
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ملخص الفصل 
يعد تعلّم الآلة أحد المجالات الفرعية للذكاء الاصطناعيء ee‏ بصنع خوارزميات 
تتيح للحاسب التعلم من البيانات للخروج بناذج تفيد الكثير من التطبيقات» كمعالحة 
اللغات. إحدى مجموعات الخوارزميات التى انتشرت بشكل كبير في الفترة الأخيرة 
هي خوارزميات التعلّم العميق» التي هي امتداد لخوارزميات oS JE‏ الحصبية: 
يرجع سبب انتشار استخدام التعلّم العميق إلى قدرتها على تعلم ناذج بالغة التعقيد 
كان من الصعب تعلمها سابقاء ما أتاح العديد من التطبيقات التي تعالج احتياجات 
واقعية» كرؤية الحاسب ومعالحة اللغات الطبيعية. 
في هذا الفصل عرض موجز عن الشبكات العصبية والتعلم العميق. في البداية سيتم 
التحدث عن التسلسل التاريخي لتطور هذه الخوارزميات» ثم التطرق لأهم المعماريات 
المستخدمة, وني النهاية عرض لبعض تطبيقاتها في معالجة اللغات الطبيعية» وذلك 
للخروج بفهم عام عن خوارزميات التعلم العميق وكيفية تطبيقها في Jle‏ معالحة 
اللغات من دون الدخول في التفاصيل الدقيقة لكل خوارزمية» حتى يكون لدى 
الباحث تصور لما يمكن أن يقدمه التعلم العميق في المجالات المختلفة في معالجة اللغات 
ix. da‏ 
د. فارس بن صالح القنيعير 

حصل على درجة البكالوريوس في هندسة البرمجيات» ودرجة الماجستير في علوم 
الحاسب من جامعة الملك فهد للبترول والمعادن في المملكة العربية السعودية» ودرجة 
الدكتوراه في هندسة وتصميم النظم من جامعة واترلو في كندا. من اهتاماته البحثية: 
تعلم الآلة» تحليل الأناط والتعرف عليهاء ومعالجة الصور. وقد عمل على العديد من 
المشاريع البحثية مثل التعرف على لوحات السيارات السعودية» التعرف على الأشخاص 
عن طريق السات الحيوية (القزحية والوجه)» التعرف على الأنسجة السرطانية 
وتصنيفها في صور الماموجرام» تقسيم وتحديد البروستاتا في صور الرنين المغناطيسي» 
التعرف على نوبات الصرع عن طريق إشارات الدماغ الكهربائية» وتصنيف النصوص 
والمشاعر في اللغة العربية. 
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١‏ — مقدمة 
يعل de‏ الآلة (Machine Learning)‏ أحد المجالات الفرعية للذكاء الاصطناعي 
ex «(Artificial Intelligence)‏ بصنع خوارزميات تتيح للحاسب التعلم من 
البيانات للخروج بناذج تفيد الكثير من التطبيقات» كمعالحة اللغات. إحدى 
مجموعات الخوارزميات التى انتشرت بشكل كبير في الفترة الأخيرة هى خوارزميات 
التعلّم العميق (Deep Learning)‏ التي هي امتداد لخوارزميات الشبكات العصبية 
.(Neural Networks)‏ يرجع انتشار استخدام خوارزميات التعلم العميق إلى 
قدرتها على تعلّم ناذج بالغة التعقيد كان من الصعب تعلمها سابقاء مما أتاح العديد 
من التطبيقات التي تعالج احتياجات واقعية« كرؤية الحاسب (Computer Vision)‏ 

(NLP) اللغات الطبيعية‎ abus ; 

a اكات جالعل ركو برا‎ arteriis 
اللغات الطبيعية» وال هدف الخروج بفهم عام عن خوارزميات التعلم العميق وكيفية‎ 
"PT اللغات من دون الدخول في التفاصيل الدقيقة‎ itle OU تطبيقها في‎ 
حتى يكون لدى الباحث تصور لما يمكن أن يقدمه التعلم العميق في المجالات المختلفة‎ 
في معالحة اللغات الطبيعية.‎ 


-Y‏ تاربخ الشبكات العصبية والتعلّم العميق 

قبل أن أتحدث عن التعلم العميق» يجدر أن أستعرض التسلسل التاريخي لخوارزميات 
الشبكات العصبية» وكيف تطورت إلى ما هي عليه الآن. ترجع البدايات لعام «e YAEY‏ 
حيث قام وارن مكولش | (Warren McCulloch)‏ ووالتر بيتز (Walter Pitts)‏ بوضع 
نموذج رياضى لكيفية عمل العقل وصنع نموذج للعصبونات «(neurons)‏ التي 
تستخدم حتى الآن كمكون أساسى للشبكات العصبية McCulloch & Walter)‏ 
1943( وني عام ۱۹٤٩‏ م قام دونالد هيب Hebb)‏ 14 بشرح كيف أن الروابط 
(Rosenblatt‏ بصنع جهاز المستقبل (Rosenblatt, 1958) (Perceptron)‏ « وهو 
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محاكاة للنموذج الذي قام بوضعه كل من مكولش وبيتز عام 1457. الُستقبل هو 
عبارة عن مصتف خطي (linear classifier)‏ يستقبل مُدخلات ويقوم بجمعها بشكل 
موزون حسب الأوزان ثم إخراج القيمة ٠‏ أو Y‏ بناءً على قيمة الحد (threshold)‏ 
الشكل ١‏ يوضح خوارزمية الستقبل. 

inputs 


(5 
bd N weights 


ع 


( ON hu unit step 
8 V. sum : 
عدت‎ > function 
٠. ر‎ — 


— dn 
dh E pe z) d 
uw P d 


Qv 
d 
(Perceptron) المستقبل‎ :١ الشكل‎ 

وفي هذه الأثناء كان كل من برنارد ويلدرو (Bernard Wildrow)‏ ومارسيان هوف 

er يعملان على نوع آخر من الشبكات العصبية تم نشره عام‎ (Marcian Hoff) 

أسمياه (Widrow, 1960) ADALINE‏ « ثم طوراه عام ۹۲ e"‏ إلى MADALINE‏ 

Winter)‏ و 1988 .(Widrow,‏ وقد تم استخدام هذه الشبكات لإزالة الصدى من 
المكالمات الحاتفية» ولا تزال تستخدم تجارياً حتى الآن. 

ما كان يعيب الشبكات العصبية في تلك الأثناء أنها كانت مصئّف خطى لا تتمكن 

من تصنيف المشاكل اللاخطية (non-linear)‏ . وقد قام مارفن منسكى Marvin)‏ 

(Minsky‏ وسيمور بابرت (Seymour Papert)‏ بتأليف كتاب عام ۱۹۹۹م يوضح 

حدود خوارزمية JE‏ 1 ومشاكلها Minsky)‏ و 1969 .(Papert,‏ 

ولعل أشهر مثال ذكروه هو عجزها عن تصنيف KOR‏ الجدول التالي يوضح قيم 

XOR‏ لمدخلين A‏ و8: 
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AXORB B A 
0 0 0 
0 1 1 
1 0 1 
1 1 0 


XOR قيم‎ :١ جدول‎ 


والشكل التالي يوضح أنه لا يمكن فصل القيم الناتجة باستخدام خط مستقيم» OY‏ 
المشكلة غير خطية» لهذا لا يمكن استخدام خوار زمية المستقبل لحل KOR‏ 


|| True O False 
XOR الشكل ۲: تصنيف قيم‎ 

بعد توضيح هذه المشاكل حدث جفاء كبير بين مجتمع الذكاء الاصطناعي 

وخوارزميات الشبكات العصبية» وانقطع دعم الأبحاث المتعلقة بها بشكل كبير. وقد 

استمر ذلك حتى بدايات عام ١٠/9١م.‏ 
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بدأ الاهتمام بالشبكات العصبية يعود بسبب عدة أحداث متوالية» بدءاً من مشاركة 
لجون هوبفيلد (John Hopfield)‏ عام 14۸1م في مؤتمر للأكاديمية الوطنية للعلوم 
((Hopfield« 1982)‏ حيث شرح الشبكة التي تحمل الآن اسم شبكة هوبفيد» وعاد 
بسبيها الكثير من الباحثين إلى الشبكات العصبية. ثم تلاه إعلان اليابان عودتها لدعم 
الأبحاث المتعلقة بالشبكات العصبية» وتلا ذلك استحداث مؤتمرات سنوية COS‏ 
iade‏ متخصصة في الشبكات العصبية» كل ذلك زاد من زخم الدعم والنشر العلمي في 
هذا المجال. ولعل أهم الأمور التي أثرّت في مسيرة الشبكات العصبية هما خوارزميتي 
الانتشار العكسبى (backpropagation)‏ والنزول الاشتقاقى (gradient descent)‏ 
بالرغم من اقتراحها في الستينات» إلا أن خوارزمية الانتشار العكدي تم إعادة شرحها 
بشكل أو ضح وإشهارها عن طريق كتاب Learning Internal Representation by)‏ 
(Propagation Error‏ الذي نشر عام ٩۱۹۸م‏ من تأليف روميلهارت (Rumelhart)‏ 
وهينتون (Hinton)‏ وويليامز «Hinton «Rumelhart) (Williams)‏ و «Williams‏ 
KORTS‏ وفي التسعينات وما بعدها تم اقتراح العديد من أنواع الشبكات العصبية التي 
لا تزال تستخدم حتى الآن» مثل CNN ;LSTM‏ وسأتكلم عنهما لاحقا في هذا الفصل. 


كما ذكرت سابقاًء التعلم العميق هو فعلياً شبكات عصبية ولكن بطبقات أكثر. 
فتاريخ التعلم العميق مرتبط بشكل كبير بالشبكات العصبية. ولكن كان هناك مشاكل 
تعيق تدريب شبكات بهذا التعقيد» كقلة البيانات وضعف القدرة الحاسوبية وبعض 
المشاكل في الخوارزميات التي تم حلها تدريجياً. الموجة الثالثة في انتشار استخدام 
الشبكات العصبية هي عهد التعلم العميق» حيث بدأت على الأرجح عام 5١٠٠م‏ 
ببحث منشور يشرح كيفية تدريب شبكات عميقة من نوع Deep Belief Networks‏ 
COsindero Hinton)‏ و (Y * * V Teh‏ ولكن الشهرة الحقيقية التى سببت انتشار 
استخدام التعلم العميق هو فوز خوارزمية تعلم عميق Krizhevsky) AlexNet)‏ 
«Sutskever‏ و ((Y* 1Y «Hinton‏ بتحدي Large Scale Visual Recognition‏ 
Challenge (ILSVRC)‏ عام ۲۰۱۲م بالمركز الأول بفارق كبير جداً بين المركزين 
الأول والثاني. هذا التفوق الكبير فتح أعين الباحثين على القدرة الكبيرة للتعلم العميق 
في بعض المجالات كرؤية الحاسب ومعالحة اللغات الطبيعية. ولا يزال المجتمع البحثي 
نشط جداً في الأبحاث المتعلقة بالتعلم العميق وكيفية تطبيقه في ختلف المجالات. 
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-Y‏ أسباب نجاح التعلم العميق 
كما يتضح من تاريخ الشبكات العصبية» فالكثير من المفاهيم المستخدمة في التعلم 

العميق تم استخدامها منذ زمن بعيد. ولكن هناك عدة أسباب أدت إلى نجاح التعلم 

العميق لاحقاء يمكن اختصارها في أربعة أسباب أساسية: 

Y‏ - البيانات الضخمة: مع رخص وسائل التخزين وزيادة سعاتهاء إضافة إلى سهولة 
تسجيل البيانات وتنوعها صار بالإمكان جمع بيانات ضخمة. أحد متطلبات 
تدريب ناذج التعلم العميق المعقدة هو توفر بيانات ضخمة يمكنها تعلم الملايين 
من الأوزان. 

؟- cd ad‏ الرسومية؛ يطل cols e ea a3‏ العبيقة S aL colle‏ 8 جد 
حيث يتم تعلم ملايين الأوزان. باستخدام المعالجات الرسومية صار بالإمكان توزيع 
العمليات الحسابية بالتوازي (03131161)» ما ساهم في تسريع التدريب بشكل كبير. 
حل بعض المشاكل AAS‏ المشتقة (vanishing gradient)‏ وانفجار المشتقة 
.Cexploding gradient)‏ وكذلك اقتراح استخدام دوال تفعيل جديدة مثل دالة 
ريلو» وغيرها من التطويرات العديدة. 

٤‏ - ثقافة المشاركة في مجتمعات الذكاء الاصطناعى وتعلم الآلة: أحد العوامل المهمة في 
انتشار استخدام التعلم العميق هو ثقافة المشاركة في مجتمعات الذكاء الاصطناعي. 
وثقافة المشاركة تتضمن نتائج الأبحاث والأوراق العلمية عن طريق نشرها Ue‏ 
على مواقع مثل carxiv.org‏ مما يتيح للجميع الوصول لما بدون اشتراكات باهظة 
الثمن. بالإضافة إلى مشاركة الأكواد والبرامج والبيانات. 


4 - الشبكات العصبية والتعلم العميق 

تعد الشبكات العصبية من الخوارزميات المهمة في مجال تعلّم الآلة» وهي تتبع لمدرسة 
تسمى التشبيكية (connectiontist)‏ والتي استقت أفكارها من محاولة محاكاة الدماغ 
البشري وتشابك الأعصاب. فكما شرح دونالد هيب بأنه عند التعلم تقوى روابط 
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العصبونات التي تستخدم سوياًء وهي الفكرة الأساسية التي تقوم عليها الشبكات 
العصبية» حيث تسعى الخوارزمية أن تتعلم أوزان الروابط بين العصبونات. الشبكات 
العصبية تستطيع تعلم مشاكل غير خطية في غاية التعقيد. 

تتكون الشبكات العصبية بشكل Y‏ من عصبونات (neurons)‏ وأوزان 
(weights) dl ; JI‏ ودوال تفعيل (activation functions)‏ وكذلك من مدخلات 
(inputs)‏ ومخرجات (outputs)‏ کا هو موضح في الشكل .٣‏ وهي تتكون غالباً من 
عدة طبقات (layers)‏ 


input hidden output 


الشكل Ý‏ شبكة عصبية بسيطة 
التي تسبقها بالأوزان وإضافة قيمة الانحياز cb‏ ثم إدخال النتيجة إلى دالة التفعيل كا 
هو موضح في المعادلة: 


h(X, W,b) = Ø(XW + b) = 293 X; wi + bi) 


i-1 
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حيث X‏ مصفوفة تحتوي على قيم المدخلات أو الطبقة السابقة» W‏ مصفوفة بقيم 
الأوزان» وا متجه بقيم الانحياز Cbias)‏ و2 هي دالة التفعيل. يجدر التأكيد أن المعادلة 
السابقة (EE‏ حساب عصبون واحد فقط» ويجب أن تحسب لكل عصبون في كل طبقة. 

تعد دالة التفعيل من المكونات الأساسية للشبكات العصبية» فمن خلاها تكتسب 
قوتها في التصنيف غير الخطي. هناك عدة أنواع لدالة التفعيل» سابقاً كان الأكثر 
استخداما هما دالتي سيجمويد :(sigmoid)‏ 


dcn pg? 
:(Tanh) ودالة الظل الزائدي‎ 

eZ — 2-م‎ 

96) 7 erect 


الموضحين في الشكلين ٤‏ وة. 


1.0 


0.5 
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5.0 2.5 0.0 2.5- 5.0- 
الشكل 0: دالة Tanh‏ 


ولكن مؤخراً تم التوجه إلى دوال أخرى أكثر فعالية للتعلم العميق» أشهرها 
وأكثرها استخداماً هی دالة ريلو :(ReLU)‏ 


Q(z) = max (0,z) 


الموضحة في الشكل 1. 
4 
2 
0 
5.0 2.5 0.0 25- 0 5.0- 
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ca au Y‏ الشات العصيية 
الخوارزمية الأشهر استخداماً لتدريب الشبكات العصبية هي خوارزمية الانتشار 
العکسی (backpropagation)‏ وفيها یتم استهلال الأوزان غشوائياً في البداية ثم 
حساب المخرجات كا تم شرحه لكل عصبون في كل طبقة. بعد ذلك يتم حساب دالة 
التكلفة (cost function)‏ التي توضح مقدار الخطأ في المخرجات. هناك عدة دوال 

:(MSE) Mean Squared Error لحساب التكلفة» مثل دالة‎ 


ل انا 
نز MSE =>) G-‏ 
1-1 


حيث y‏ هي القيم الحقيقية لعينات التدريب» و7 هي قيمة المخرجات من الشبكة 
PNE‏ 

بناءً على ذلك يتم تحديث الأوزان لتقليل دالة التكلفة بشكل تكراري عن Gub‏ 
حساب النزول الاشتقاقى (gradient descent)‏ واستخدامه لتحديث الأوزان» حتى 


الوصول إلى نتيجة مقبولة. 


ه- معماريات الشبكات 

تتنوع معماريات الشبكات العصبية حسب التطبيق المطلوب» حيث كل معمارية U‏ 
خصائص لا تتوفر بغيرها. وسيتم التطرق هنا لثلاثة من أكثر المعماريات استخداما. 
بشكل عام يتم إطلاق التعلم العميق على الشبكات العصبية ذات الطبقات الكثيرة» 
ولا يوجد رقم محدد متفق عليه لعدد الطبقات حتى نطلق على الشبكة شبكة ciias‏ 
فبعضهم يعدها ٠١‏ وبعضهم أقل أو أكثر. وكلما زاد عدد الطبقات زادت إمكانية 
الشبكة لتمثيل وتعلم مفاهيم أعقد. 

(Multi-Layer Perceptron (MLP)) متعدد الطبقات‎ JM o6, 

de‏ المستقبل متعدد الطبقات أحد أشهر خوارزميات الشبكات العصبية» وهى 
الخ الي ايكون قرح cS AI‏ العصبية ele‏ البداية غالبا dum gd‏ 
الفصل السابقء انظر الشكل ۷. ويتم تسمية طريقة تشابك طبقاتها ب «الطبقات تامة 
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الاتصال) «(fully connected layers)‏ حيث في الغالب يتصل كل عصبون في طبقة 


input Hidden 1 Hidden 2 output 
(MLP) الشكل ۷: شبكة المستقبل متعدد الطبقات‎ 


(Convolutional Neural Networks) الشبكات العصبية الترشيحية‎ o , Y 
تتعامل الشبكات العصبية الترشيحية في الغالب مع مصفوفات ثنائية الأبعاد» والتي‎ 
تكون على الأرجح صور. طريقة التعلم قريبة من الآلية التي تم شرحها هناء ولكن‎ 
الفرق في طريقة تمثيل الطبقات وتشابهها. في الشبكات الترشيحية بدلا من تعلم الأوزان‎ 
filters /( بين كل عصبون والمقابل له في الطبقة التي تليه» يتم تعلم عدة مرشحات‎ 
الطريقة يتم تقليل عدد الأوزان التي‎ ede يمكن تطبيقها على الصور ككل.‎ 05 
مما يسهم في تسريع عملية التعلم وتقليل فرط التخصيص‎ dam يجب تعلمها بشكل كبير‎ 
. (parameter sharing) هذه الخناصية يطلق عليها مشاركة المدخلات‎ . Coverfitting) 

هناك عدة أنواع للطبقات في الشبكات الترشيحية (أنظر الشكل 8)» أهمها: 


-١‏ طبقات الترشيح :(convolutional layer)‏ وفيها يتم تطبيق المرشحات التى يتم 


تعلم أوزانها. 
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-Y‏ طبقات التقليص :(layer pooling)‏ وفيها يتم تقليص حجم الصورء وقد يكون 
التقليص بالمعدل (mean pooling)‏ أو بالقيمة الأكبر .(max pooling)‏ 

de وهى مثل التى تم‎ :)1401197 connected layers) الطبقات تامة الاتصال‎ -Y 
السابق» يتم تحويل المصفوفات ثنائية الأبعاد إلى متجه من بعد واحد. وقد يكون‎ 
(output layer) هناك أكثر من طبقة تامة الاتصال قبل طبقة المخرجات‎ 


80128x128 24016x16 1256 


E Es [rr a ١ 1x128 
ELD SSS 


Max -Pool Convolution Max-Pool Dense 


(Recurrent Neural Networks) الشبكات العصبية التكرارية‎ o , Y 
الشبكات التي تم شرحها حتى الآن لا يؤخذ الزمن أو العلاقة بين‎ el yl في‎ 
سلاسل البيانات بالاعتبار. ولكن هناك العديد من التطبيقات التى يجب أن تأخذ في‎ 
Speech) كالتعرف على الكلام‎ « all الحسبان علاقة البيانات بين بعضها في السياق‎ 
Optical Character) أو المكاني كالتعرف على النصوص المطبوعة‎ «(Recognition 
الشبكات التي تم شرحها حتى الآن المدخلات والمخرجات مستقلة‎ (3 (Recognition 
المدخلات فيها (كمكان الحرف في‎ GU عن بعضهاء لذا يصعب أن نستخدم السياق الذي‎ 
الكلمة أو الكلمة في الجملة). الشبكات العصبية التكرارية تحل هذه المشكلة عن طريق‎ 
تذكر ما تم تعلمه من المدخلات السابقة» وبهذا يمكن تعلم الحالة الماضية واستخدامها‎ 

مع المدخلات الحالية» أنظر الشكل 4. ويتم حساب قيمة كل عصبون كالتالي: 
hi = O(Wyyxt + Wannhe-1 + ba)‏ 


حيث +7 deb‏ قيمة المدخلات مضروبة بالأوزان الخاصة de‏ وقيمة ht-1‏ 
مضروبة بالأوزان الخاصة اء وغ تشير إلى الترتيب. 


—0A— 
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من المشاكل التى تواجهها هذه الشبكات هى تلاثى المشتقة (vanishing gradient)‏ 
وانفجار المشتقة Cexploding gradient)‏ في السلاسل الطويلة. وقد تم اقتراح عدة 
خوارزميات لحلها أشهرها GRU p LSTM‏ وسيتم شرحهما الآن. 


الشكل 9: شبكة عصبية تكرارية 
Y‏ .”وه الذاكرة قصيرة المدى المطولة (Long Short-Term Memory (LSTM))‏ 
تم نشر خوارزمية الذاكرة قصيرة المدى المطولة  (LSTM).‏ بحث Ja gii gà‏ 
(Hochreiter)‏ وشميدهوير (Schmidhuber)‏ عام ۱۹۹۷م Hochreiter)‏ و 
(AAV Schmidhuber‏ وقد تم اقتراح العديد من التحسينات والأنواع المختلفة ها 
بعد ذلك. تحل LSTM‏ المشاكل التى تواجهها شبكات RNN‏ بحيث تقلل من حدة التغير 
في المشتقات LS RNIN o‏ امسو ue ai EE‏ مق tS‏ 
قصيرة المدى وطويلة المدى. الفارق الأساسى في LSTM‏ هي آلية التذكر والنسيان» وقد 
تم تصميع الشبكة عن طريق Dc‏ الطبقات البسبيظة باحر أكثر ies‏ تتكون من 
عدة بوابات» يطلق على هذا النوع من الطبقات خلية Cell)‏ الشكل ٠١‏ يوضح شكل 
خلية .LSTM‏ تحتوي LSTM‏ على ثلاثة أنواع من البوابات: بوابة إدخال «input gate)‏ 
بوابة نسيان «(forget gate)‏ وبوابة إخراج .(output gate)‏ ويتم حساب كل من الذاكرة 
(cell state) (c)‏ والمخرجات/ أو (hidden state) (h) JI‏ كالتالي: 
br)‏ + عناملا f a (Wrx, T‏ 
bi)‏ + معطلا + ij = o(Wix,‏ 
o(WoxXt + Uoht-1 + bo)‏ = ;0 
c; = fie, + i Otanh(Wex; + Ucht 4 + be)‏ 
hi = orOtanh(cr)‏ 
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حيث x,‏ المدخلات» كرو 7 و ,0 متجهات بوابات النسيان والإدخال والإخراج 
على التوالي» ى دالة التفعيل سيجمويد» U SW‏ وط الأوزان لكل من البوابات السابق 
ذكرها والمدخلات والذاكرة والحالة السابقة» وا وحدة الزمن أو الخطوات» و © ترمز 


.(element-wise multiplication) لضرب مكونات المصفوفات‎ 
h 


الشكل :٠١‏ خلية الذاكرة قصيرة المدى (LSTM) 3) lal!‏ 
Y‏ ,"ره الوحدة التكرارية (Gated Recurrent Unit (GRU)) zd‏ 
أحد الخوارزميات المشتقة من LSTM‏ هى الوحدة التكرارية المبوبة (GRU)‏ 
«Bahdanau «Merrienboer «Cho)‏ و ٤ Heb‏ ))» وتعد ا لما من عدة 
جهات. فمثلاً في GRU‏ تم دمج بوابتي الإدخال والنسيان إلى بوابة واحدة اسمها بوابة 
التحديث (C$ «(update gate)‏ تم دمج خلية ذاكرة الخلية وحالة الخلية cell and)‏ 
(hidden states‏ الشكل Y Y‏ يوضح شكل خلية LS -GRU‏ هو واضح فإنها أبسط من 
خلية LSTM‏ ومع هذا فإن الأداء بين LSTM 5 GRU‏ متقارب das‏ نما أدى إلى تبنيها 
بشكل كبير نظراً لكفاءتها. المعادلات التالية تبين كيفية حساب المخرجات: 
Zt = G(Wx; + Uzhr- + bz)‏ 
re = o(W;xt + Urht-1 + br)‏ 
h, = (1— z)Oh,-4 + ziOtanh(Wyx; + Un (rtOht-1)‏ 
by)‏ + 


هل 
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حيث ,2 متجه بوابة التحديث (update gate)‏ و r,‏ متجه بوابة إعادة التعيين reset)‏ 


.(gate 
he 


الشكل :١١‏ خلية الوحدة التكرارية (GRU) idu‏ 


3- تطبيقات التعلم العميق في معالحة اللغة 

تتنوع فروع معالحة اللغات الطبيعية (Natural Language Processing (NLP))‏ إلى 
العديد من المجالات والتطبيقات» ويرجع العمل عليها للعديد من العقود. سيكون 
التركيز في هذا الفصل على كيفية تطبيق التعلم العميق في هذه المجالات. وبا أن 
العشرات والمئات من الأبحاث قد نشرت لكل من هذه المجالات» فليس المجال هنا 
الحصرء ولكن لإعطاء فكرة عن المجالات المختلفة وكيفية استخدام التعلم العميق 
فيهاء وسيتم شرح كل Jue‏ وذكر مثال لحله باستخدام التعلم العميق. 


(Words Embeddings) تضمين الكلمات‎ ^, ١ 
محافظة لترابط‎ (vectors) تضمين الكلات هو تثيل للكلات على شكل متجهات‎ 
الدلالات. من فوائد تضمين الكلمات أن طول المتجه الذي يمثل الكلمات أقل بكثير‎ 
One من عدد الكلمات المستخدمة. فمثلاً بعض التمثيلات التي كانت تستخدم مثل‎ 
ه٠ لف كلمة فسيتم تمثيل كل كلمة بمتجه طوله‎ ٠١ إذا كان لدينا‎ Hot Encoding 
بحيث يكون كله أصفار ما عدا مكان الكلمة يكون واحد. بين الكلات المضمنة‎ cad 


Ex 
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يتم تمثيلها بمتجه طوله غالباً بين Y ٠‏ ومكون من أرقام يتم تعلمها. إحدى 
خصائص هذه الخوارزميات هي المحافظة على المعنى الدلالي للكلمات» بحيث تكون 
الكلمات المتقاربة في المعنى قريبة من بعضها في فضاء المتتجهات. 

«Mikolov) word2vec أشهرها‎ (SUE هناك عدة خوارزميات لتضمين‎ 
cSocher cPennington) Glove «(Y * YY «Dean gy «Corrado «Chen cSutskever 
«Mikolov و‎ «Joulin «Grave .Bojanowski) fasttext » «(Y * 1€ «Manning و‎ 
continuous إما باستخدام‎ cword2vec هناك طريقتان لتعلم التضمين في‎ (Y V 
هو تعلم الكلمات‎ CBOW (3 ادف‎ .skip-gram أو‎ «bag of words (CBOW) 
هو تعلم السياق من الكلمات.‎ skip-gram في‎ Ke (context) المناسبة من السياق‎ 
يوضح كلا من الطريقتين.‎ ١١ الشكل‎ 


: w(t —2) ¦ | w(t—2) @ 
Jwe 1) w(t — 1) € 


D w(t +1) ¦ | w(t 1) C 


w(t) O w(t) 
w(t + 2) w(t 4 2( 
skip-gram CBOW 


الشكل ۱۲: شبكتا تضمين الكلمات باستخدام skip-gram ; CBOW‏ 


(Sentiment Analysis) التعرف عل المشاعر‎ ^, Y 
كثيراً ما تحتاج الجهات أن تعرف مشاعر العملاء عن الخدمات والمنتجات التي تقدمهاء‎ 
إحدى الطرق التي انتشر استخدامها مؤخرا استخدام خوارزميات التعرف على المشاعر‎ 
لتحليل النصوص وغاولة معرفة مشاعر الكاتب. يمكن تصنيف المشاعر إلى ثلاث‎ 
أو حمس فئات» أو غيرها من التصنيفات. ويمكن تدريب ناذج التعرف على المشاعر‎ 

لتعمل على النص SUUS‏ أو على الفقرات كل على حدة. 

غالب الطرق التي تستخدم التعلم العميق تبدأ بتحويل النص إلى تمثيل الكلمات المضمنة 
الذي تم شرحه قبل قليل. ولأن السياق وأخذ الجمل كاملة في الاعتبار مهم فالكثير 
يستخدم أحد الأشكال المختلفة من معمارية «RNN‏ ک LSTM‏ أو -GRU‏ 


سات 
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(Machine Translation) الترحمة الآلية‎ * , Y 
الترجمة من لغة إلى أخرى آلياً جال حصب للأبحاث» وقد حر جت العديد من الأبحاث‎ 
والخوارزميات التي تستخدم التعلم العميق لتعلم الترجمات. موقع ترجمة قوقل بدأ‎ 

باستخدام التعلم العميق من عام 5١١7م.‏ 


يتم في الترجمة الآلية (والتعرف على الكلام والتلخيص MI‏ كا سيأتي) إدخال سلسلة 
من المدخلات وإخراج سلسلة من المخرجات» يطلق على الشبكات التي تستخدم 
لمذا النوع من التطبيقات «Sutskever) Sequence-to-Sequence (Seq2Seq)‏ 
cVinyals‏ و »)3١ ١5 Le‏ وفيها يتم استخدام شبكتين من نوع RNN‏ بحيث يتم ترميز 
السلسة الأولى (encoder)‏ وفك الترميز للشكل المستهدف (decoder)‏ في الترجمة 
الآلية تكون السلسلة الأولى اللغة المصدر والسلسلة الثانية اللغة المستهدفة. الشكل ١‏ 
يوضح شبكة Seq2Seq‏ للترحمة الآلية» ويطلق .encoder-decoder PN Lee‏ 


7 ; Embedding _ ; 


how are you 


n 


Encoder Decoder 

الشكل ١‏ : مثال لشبكة ترحة آلية 

(Speech Recognition) و" التعرف على الكلام‎ ٤ 
تحويل الكلام المنطوق من موجات صوتية إلى نص مكتوب يستخدم الآن في العديد‎ 
من التطبيقات كالمساعدات الشخصية وتحويل الكلام المسجل إلى نصوص. وقد‎ 
ولكن في الآونة الأخيرة تم‎ HMM كان الاعتماد سابقاً بشكل كبير على خوارزميات‎ 
تبني التعلم العميق بشكل أساسي» حيث تستخدمه الآن كبرى الشركات في منتجاتها‎ 
«Amodei) DeepSpeech للتعرف على الكلام. أحد الخوارزميات المشهورة هي‎ 
في البداية يتم تحويل المقطع الصوتي إلى‎ .١5 الموضحة في الشكل‎ CYNT وآخرون»‎ 


i 
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الطيفية (spectogram)‏ -وهو تمثيل للتردد عبر الزمن- ثم استخدام عدة طبقات من 
الشبكات العصبية الترشيحية» متبوعة بطبقات من نوع RNN‏ ثم طبقة تامة الاتصال. 
الطبقة الأخيرة المستخدمة تدعى Connectionist Temporal Classification‏ 
«Gomez Fernández (Graves) (CTC)‏ و (Y+ ۰ Schmidhuber‏ وفيها يتم 


ž £ 
احتالا.‎ de YI اختيار المخرجات‎ 
Output Text 

^ 

B 

(S 

g|: Hello 

x 

Y 

2 
O Convolution Layer 
© Fully Connected Layer 


الشكل ؛ ١‏ : شبكة Deep Speech‏ للتعرف على eS‏ 


(Optical Character Recognition) | تحويل الصور إلى نصوص‎ ^, o 
من التطبيقات المهمة تحويل النصوص المطبوعة أو المكتوبة يدوياً إلى نص قابل للتعديل‎ 
على الحاسب. وهذا المجال العديد من التطبيقات» كالفرز الآلي للطرود» قراءة أرقام‎ 

الشيكات» وقراءة أرقام لوحات السيارات. 


Input Image Output Text 


| 


الشكل Yo‏ : مثال لشبكة لتحويل الصور إلى نصوص 
بالرغم من الاختلاف الظاهري بين مشكلتي التعرف على الكلام والتعرف على الكتابة 
في الصورء فإن فكرة معمارية شبكة التعلم العميق مشابهة جداً للتي تم شرحها للتعرف 
على الكلام كما هو موضح في الشكل .١5‏ ففي البداية يتم استخدام الشبكات العصبية 
الترشيحية» متبوعة بطبقات من نوع RNN‏ ثم طبقة تامة الاتصال» ثم خوارزمية لفك 
الترميز مثل 0160 التي تم شرحها في خوارزمية التعرف على الكلام. 


Input Audio 


F 


0000000 
0000000 
0000000 
0000000 


@ Recurrent Layer 


عقوت 
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5و" توليد الكلام (Speech Synthesis)‏ 
عكس تحويل الكلام إلى نصوص. الحدف من توليد الكلام هو تحويل النص المكتوب إلى 
مقطع صوتي منطوق. كان في السابق يتم إلصاق الفونييات (الوحدات الصوتية) لإنشاء 
الكلام» ولكن في السنوات الأخيرة تم ابتكار العديد من الخوارزميات باستخدام التعلم 
العميق تعطي نتائج مقاربة بشكل كبير للصوت البشري. من الخوارزميات المهمة لتوليد 
الكلام باستخدام التعلم العميق هي خوارزمية wavenet‏ من قوقل Oord)‏ وآخرون» 
٠١‏ )» وهي خوارزمية توليدية تتعلم التوزيعة المشروطة التالية: 
pa) = | [Pereo‏ 
t‏ 


بحيث ,× هو المتغير d‏ و© مدخلات (parameters)‏ النموذج. في هذا النموذج يتم 
توليد العينة الصوتية ,× بناء على ما يسبقها من العينات ع>×. مشكلة توليد الصوت oiy‏ 
الطريقة أنه يتطلب الكثير من المعالجة OY‏ معدل العينات في المقاطع الصوتية Jle‏ جداً. 
لهذا كانت il, wavenet‏ جداً في البداية» ولكن تم تحسينها لاحقا حتى وصلت إلى 
مستوى أداء مقبول. 

۷و المزيد من التطبيقات 

هناك المزيد من تطبيقات معالجة اللغات التي تم استخدام التعلم العميق فيها 
وأعطت نتائج ممتازة. يصعب أن نحصرها في هذه المقدمة البسيطة» ولكن فيا يلي أمثلة 

(Text Classification) تصنيف النصوص‎ * 

* تلخيص النصر ص (Text Summarization)‏ 


(Question and Answering) الإجابة على الأسئلة‎ * 

(Named Entity Recognition (NER)) الأعلام‎ de» * 
(Paraphrase Detection) ؟. الكثفاعن النسخ المعدل‎ 

؟ التصحيح الإملائي (Spell Checking)‏ 


(Natural Language Generation) توليد النصوص‎ * 
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الفصل الثالث 
الترجمة الآلية 


5 عبدالله بن صالح الراجح 


Ina 


هذه الطبعة إهداء من SA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


دولاب 


هذه الطبعة إهداء من المركز 
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o EN‏ ^ 


ملخص الفصل 

نشهد حالياً تطوراً ملحوظاً في أداء أنظمة الترجمة الآلية بعد عقود من البحث 
والتطوير» L‏ ساهم à‏ زيادة الاعتاد عليها من المستخدم العادي وكذلك المترجم 
المحترف. لقد ساهمت هذه الأنظمة في تسهيل الوصول للمعرفة بشتى اللغات وكذلك 
التواصل مع الأمم الأخرى بأقل التكاليف. وتعد أتمتة الترجمة من أصعب المشاكل في 
مجال الذكاء الاصطناعى حيث تتطلب معارف لغوية على عدة مستويات لمحاكاة عمل 
المترجم المختص. يقدم هذا الفصل نظرة عامة على Jle‏ الترجمة الآلية وتاريخه وأهم 
الأبحاث المقدمة فيه خصوصاً المتعلقة بترجمة اللغة العربية. كا يستعرض منهج الترجمة 
الآلية الإحصائية (Statistical Machine Translation)‏ والذي كان المهيمن على 
مدى عدة عقود من الزمن إلى أن تحول المجتمع البحثي حديثاً ولحقه كبريات الشركات 
إلى المنهج المعتمد على الشبكات العصبية oip . (Neural Machine Translation)‏ 
النقلة النوعية دخلت الترجمة الآلية عصراً جديداً سيتم عرض أهم ملامحه. وبالرغم 
من النجاحات إلا أن هناك العديد من التحديات التى سنتطرق إلى أهمها في ile‏ هذا 


dad 


د. عبدالله بن صالح الراجح 

حاصل على درجة الدكتوراه في علوم الحاسب من جامعة ساوثامبتون في بريطانيا 
عام 5١١٠م‏ ودرجة الماجستير في علوم الحاسب من جامعة مانشستر في بريطانيا عام 
4 ام ودرجة البكالوريوس في علوم الحاسب من جامعة الملك سعود عام 5١١٠م.‏ 
يعمل أستاذ بحث مساعد في المركز الوطنى لتقنية الذكاء الاصطناعى والبيانات 
الضخمة بمدينة الملك عبدالعزيز للعلوم والتقنية. تقر العدين دق Jte d ete‏ 
تعليم الآلة وتطبيقاته في معالجة اللغات الطبيعية. وعمل على عدة مشاريع منها التعرف 
الضوئي على الكتابة العربية» وكذلك كتابة برايل وأيضا تصنيف النصوص العربية كا 
piril‏ الترجمة الآلية من العبرية إلى العربية ويعمل حالياً على مشروع المساعد 
الافتراضي العربي. اهتماماته البحثية تتركز في الترجمة الآلية ومعالجة الكلام باستخدام 
التعلم العميق. (asrajeh(a)kacst.edu.sa)‏ 


الاب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n——————————— $5‏ 


١‏ — مقدمة 
لقد ساهمت الترجمة وتساهم في نقل الثقافات والعلوم بين الشعوب وتسهيل 
التواصل فيا La‏ ويبذل Out AM‏ جهدا ووشا كريخ ف tu S‏ إن ره القدرة 
على التحدث باللغة المترجم إليها لا تكفي» بل يتطلب الأمر معارف أخرى تدرس 
في الجامعات والمعاهد المتخصصة. ويعد المترجم المتمكن عملة نادرة خصوصا في 
محال الترجمة الأدبية التى تتطلب فهاً أعلى للغة» وكذلك الترجمة الفورية لما تفرضه من 

سرعة. ولذا فإن عملية الترجمة مكلفة على جميع المستويات. 

ومع بداية ظهور الحواسيب برزت مشكلة الترحمة الآلية (Machine Translation)‏ 
لمحاكاة عمل المترجم وهي إحدى أقدم وأصعب المشاكل في مجال الذكاء الاصطناعي 
.(Artificial Intelligence)‏ وقد يذلت الجهود للمساهمة في حلها مدفوعة برغبة 
أجهزة الاستخبارات مضاعفة قدراتها في جمع المعلومات عن الدول الأجنبية وبالرغم 
من التاريخ الطويل إلا أن الأتمتة الكاملة للترجمة بجودة عالية لا تبدو قريبة المنال نظراً 
لارتباط الترجمة بقضايا لغوية وثقافية تصعب على الإنسان فكيف بالآلة. يجدر بالذكر 
أن هتاك تطوراً ملحوظا في جودة الترحمة الآلية المعتمدة عل مذ منهجية التعلم العميق 
(Deep Learning)‏ مما ساهم في زيادة الاعتماد على أنظمة الترجمة من المستخدم العادي 
وكذلك المترجم المحترف. 

يمكن لنا تعريف الترجمة ببساطة بأنها عملية نقل معنى النص من لغة إلى أخرى. 
وهذه العملية تتطلب مجموعة من المهارات بدءاً بالمعرفة الكاملة للغة الأصل Source)‏ 
(Language‏ على - جميع المستويات من صرف (Morphology)‏ ونحو (Syntax)‏ ومعانٍ 
(Semantics)‏ وتأويل (Pragmatics)‏ ومعرفة بسياق النص المترجم (Context)‏ 
وانتهاءً بمعرفة تماثلة للغة المترجم إليها (Target Language)‏ . 


وهناك عدة مناهج Ae AD‏ تندرج في مستويات التعقيد من الترجمة المباشرة (Direct)‏ 


تجريد المعنى عن طريق لغة عالمية مستقلة (Interlingua)‏ ثم صياغته إلى اللغة الأخرى 


(Vauquois, 1968)‏ المخطط الحرمي لفاكويس يوضح مناهج àz- JI‏ (الشكل .)١‏ 


VY 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
١١١ ©2111‏ 


نسعى في هذا الفصل إلى إعطاء القارئ الغير متخصص نظرة عامة عن الترجمة الآلية 
بدءاً من تاريخها ثم أهم المناهج المتبعة لبناء أنظمة الترجمة وكيفية تقييم جودتها. ثم 
سنتحدث عن عصر جديد تعيشه الترجمة الآلية مع دخول تقنيات التعلم العميق وما 
واكبها من تطور في جودة الترجمة. أخيرا سنتطرق إلى أبرز التحديات التي يواجهها 
الباحثون في هذا المجال. وسيكون التركيز الأكبر خلال الفصل على أنظمة الترجمة من 


اللغة العربية وإليها. 
interlingua‏ 
analysis generation‏ 
transfer‏ 
و u‏ 


direct translation 

ج ا — 
source‏ 

language 


target 
language 


الشكل :١‏ مخطط فاكويس الرمي لمناهج الترجة. 


-Y‏ شيء من التاريخ 

بدأ البحث في الترجمة الآلية مع ظهور الحواسيب. وكانت بريطانيا تستخدمها في 
الحرب العالمية الثانية لفك شفرة (Ss‏ الألمانية (Enigma machine)‏ الأمر الذي يعد 
شبيهاً بعمل الترجمة الآلية. كتب وارن ويفرء أحد الرواد في المجال» في عام ١٤۹٠م‏ 
رسالة إلى نوربرت وينر يقول فيها: «عندما أنظر إلى مقال بالروسية قول هذا مكتوب 
بالإنجليزية لكنه مشفر. سأقوم OYI‏ بفك تشفيره» )1947 (Weaver,‏ 
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عدد من الدول في ذلك الوقت بالذات coU M JE‏ المتحدة الأمريكية لديها رغبة 
لتطوير أنظمة ترجمة لأغراض أمنية وكان هناك تفاؤل كبير بحل مشكلة الترحة الآلية في 
غضون سنوات. في عام 155١م‏ قامت جامعة جورجتاون مع شركة آي بي el‏ بتجربة 
بناء نظام ترجمة من اللغة الروسية إلى الإنجليزية اعتمادا على قاموس محدود وست قواعد 
لغوية فقط )1985 (Slocum,‏ لاقت هذه التجربة أصداء واسعة جذبت pleal‏ ودعم 
المؤسسات الحكومية الأمريكية» إلا أن التقدم بعد ذلك أصبح بطيئا ليتم تشكيل kA.‏ 
حكومية (ALPAC)‏ بعد عقد من الزمان لتقييم أبحاث الترجمة الآلية. في عام eU‏ 
خلصت اللجنة في تقريرها إلى أن قدرات الترجمة الآلية مبالغ فيها وأن تكاليف المترجمين 
أقل من تحرير خر جات أنظمة الترجمة ونتيجة لذلك توقف تمويل أبحاث الترحة الآلية 
في أغلبه )2010 (Philipp,‏ 


بعد عدة سنوات عادت الأبحاث لتركز على التمثيل المجرد للمعنى meaning-)‏ 
Coriented‏ بشكل مستقل عن اللغة المحددة. وبالرغم من جاذبية الفكرة إلا أن صعوبة 
تنفيذها حال دون إحراز تقدم فيها وعدت من المشاكل الكبرى في الذكاء الاصطناعي. 
على العكس من ذلك كان هناك تقدم في نظمة الترجمة المعتمدة على قواعد اللغة rule)‏ 
4 المبنية من قبل مختصين في اللغة linguistics)‏ . كانت هذه الأنظمة فعالة لأن 
اللغة في مجملها ثابته static)‏ إلا أن بناءها مكلف مادياً ويستغرق وقتاً لحصر القواعد 
من الخبراء لكل لغة جديدة. الأمر الآخر إضافة قواعد لغوية قد يخلق تعارضات مع 
القواعد السابقة و يتطلب حلها وقتاً طويلاً. من أشهر الأنظمة التجارية في تلك الفترة 
(Systran)‏ و (Logos)‏ 


Y‏ حجر رشيد 

fale‏ ما يرمز بحجر رشيد (Rosetta Stone)‏ للمنهج الحديث في الترحمة الآلية 
المعتمد على نصوص مترحمة سابقة .(data-driven approach)‏ أكتشف الحجر في 
مصر عام ۱۷۹۹م جنوب الجيزة» منقوش عليه مرسوم ملكي بالمصرية واليونانية 
القديمة يعود لعام YA‏ قبل الميلاد في عهد الملك بطليموس الخامس (الشكل .CY‏ كان 
اكتشافه مفتاحاً لفك شفرة الهيروغليفية المصرية على معابد ومقابر الفراعنة. 
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الشكل LY‏ حجر رشيد منقوش عليه مرسوم ملكي بالمصرية القديمة في الأعلى والوسط وباليونانية 
القديمة في الأسفل معروض ف المتحف البريطاني (Wikipedia, © Hans Hillewaert)‏ 
نكن D gt UL‏ يعد Glo Y‏ من all RAUM i Lt e‏ ا Ray‏ عن طريق XU JE AUI‏ 
القديمة التي كانت معروفة من خلال المقارنة بين الثلاث نسخ لنص المرسوم الملكي. وهنا 
تكمن رمزية حجر رشيد للباحثين في الترجمة الآلية حيث أنه يمكن تعلم ترجمة اللغات من 
خلال توفر نصوص مترجمة متقابلة وكل| زادت النصوص سهل تعلم الترجمة. 
4 - الترحمة الآلية الإحصائية 
كما ذكرنا سابقاً فإن المنهجية الحديثة للترجمة الآلية تعتمد على تعلم الترجمة من خلال 
نصوص مترجمة سابقاً. هذه المنهجية بدأت تكتسب زخاً في ناية الثانينيات الميلادية 
حتى وقتنا الحاضر. فبدلاً من الاستعانة بخبراء اللغة لكتابة قواعد الترجمة كا في الأنظمة 


-هو/ا - 


هذه الطبعة إهداء من المركز 
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nÓ————————U — 1‏ 


القائمة على القواعد (rule-based)‏ يمكن استخراج قواعد احتتالية probabilistic)‏ 
698 من النصوص من خلال الإحصاء. ففي عام ۱۹۹۳م نشر باحثون من شركة آي 
ي e]‏ ورف علمية مسهورة Ol os‏ ارياضيات de JE‏ الآلة alas I‏ تصق LÀ‏ 
EE‏ لبناء نظام ترجمة من اللغة الفرنسية إلى الإنجليزية عرفت لاحقاً بناذج آي بي إم 
ise! (Brown et al., 1993)‏ على نصوص وقائع البرلمان الكندي المدونة باللغتين. 
جونز هوبكنز (Al-Onaizan et al.,1999)‏ 

يقترح )1993 (Brown et al.,‏ أن أفضل ترجمة لجملة فرنسية معطاة f‏ إلى ila‏ 
إنجليزية © هي التي تزيد من قيمة الاحتمال المشروط كالتالي: 

ebest = argmax, p(elf) 

وحيث إن هناك عدداً لا محدوداً من الجمل الإنجليزية» فإنه من الصعب بناء 
نموذج واحد يميز بينها. لذلك يتم تقسيم المشكلة إلى أجزاء أسهل باستخدام قانون 
بیز (Bayes rule)‏ لتصبح كالتالي: 


p(e)p (fle) 
p(f) 


حيث إن النموذج p(fle)‏ يعطي احتالية أن الجملة تحمل المعنى الصحيح 
(translation model)‏ والنموذج p(e)‏ يعطي احتالية أن الحملة سليمة لغويا 
Ya (language model)‏ من البحث عن ترجمة صحيحة وخالية من الأخطاء 
اللغوية في وقت واحدء يتم التركيز على الجمل السليمة لغوياً ونتجاهل البقية لضعف 
احتمال وقوعها. وهذه الطريقة مشهورة في مجال الاتصالاات وتسمى noisy-channel)‏ 
1 التي تفترض أن شخصاً يتلقى رسائل من صديقه» بعضها يصل مشوهاً 
ولاستعادة الرسائل الأصلية يتم البحث عن أكثر الرسائل المحتملة من صديقه» والتي 
يمكن أن تشوه مهذه الطريقة من خلال الخبرة السابقة. 


argmax, p(e|f) 2 argmax, 
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o EN‏ ^ 


ويمكن تقدير سلامة الجملة لغوياً من خلال حساب احتالية وقوعها بعد تجزئتها 
إلى كلمات» وحساب احتمالية كل كلمة مشروطة le‏ سبقها باستخدام قاعدة السلسلة 
dus (chain rule)‏ 


p(e) = p(e1.€2. +. er) = p(es)pCezlei) ٠٠١ pCeiles. 674) 


إلا أن هناك ie‏ لا حدوداً من السياقات التي يمكن Fl‏ تقع فيها كل كلمة» لذلك 
fale‏ ما p:‏ السياق بعدد حدود من الكلات fale (n)‏ من ثلاث إلى مس کلات» 
ويسمى هذا النموذج (n-gram model)‏ حيث إن احتمالية كل كلمة تحسب كا يلي: 


p(eiļe1. =. er-1) = p(Ceilei-a.--. ei) 


ويمكن تقدير هذه الاحت|الات من نصوص كثيرة (ملايين الجمل) من خلال 
احصاء ء كل كلمة والسياقات التي وردت فيها مقسوماً على , بقية الكلمات التي وردت في 
نفس تلك السياقات كما يلي: 


count(e;. 4. . €j 4. 6j) 
pelica iP) 


0j 4. €)‏ . .ول count(e;.‏ 
أما تقدير صحة نقل الجملة للمعنى فيتم ببساطة عن طريق الإحصاءات المعجمية 
«(lexical statistics)‏ والتي تقدر من نصوص كثيرة متقابلة من اللغتين jue‏ 
a‏ آي بي إم (IBM models)‏ تقدر الاحتالات )1993 Ya .(Brown et al.,‏ 
من الاعتماد على قواميس ثابتة يتم احتساب احتمالية ترجمة أي كلمة إلى اللغة المقابلة 
p(f le)‏ وكلما كانت الترجمة صحيحة تكون أقرب إلى واحد والخاطئة أقرب إلى صفر 
إن هذه الطريقة s aa e e M Leo ii‏ الكليات ) ward-‏ 
(based‏ إلا أنها لا تأخذ السياق في الحسبان» فبعض الكليات $ تترجم فعا ما يجعل منهج 
ترجمة العبارات (phrase-based)‏ أفضل من ترجمة الكلمات )2010 .(Koehn,‏ وعادة 
ما تستخرج العبارات من معرفة حاذاة الكلمات (word alignments)‏ عن طريق TE‏ 
آي بي ed‏ كما يبين الشكل Y‏ تجدر الإشارة إلى أن هناك طريقة أخرى تستخرج عبارات 
هرمية Y (hierarchical phrases)‏ يتسع الفصل لشرحها )2007 (Chiang,‏ 
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Arabic Sentence: رفع حظر استيراد الابقار و اللحوم المحمدة من فارة اورويا الشهر القادم‎ 
by Buckwalter: rfE HZr AstyrAd AlAbqAr w AllHwm Almjmdp mn qArp AwrwbA Al$hr AlaAdm 


English Sentence: ban on cow and frozen meat imports from europe lifted next month 
3 
E 


-e 
E $ 


<“ 
2 
$ 
a 


Intersection / Union 
الشكل ۳: محاذات الكلمات لجملة عربية مع إنجليزية من خلاها يتم استخراج ترجمة العبارات.‎ 
بعد استخراج العبارات من جميع الجمل المتقابلة يتم بسهولة حساب احتمال ترجمة‎ 
وتوضع في جدول ضخم‎ (relative frequency) كل عبارة من خلال التكرار النسبي‎ 
عادة يتم اعتبار ترجمات محدودة لكل عبارة (عشرين مثلا)‎ (translation table) 
عن الترجمة الصحيحة (الشكل 5). لاحظ أن إعادة ترتيب‎ (decoding) أثناء البحث‎ 
العبارات لتكون جملة سليمة لغويا من مهام نموذج اللغة كا تم ذكره سابقا.‎ 
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IA yHb ywsf fy Albyt Aljlws 
مسا‎ Cy) (Cm D) 
Cow D staying ) 
Com Glens 
ndoo 
anome 


yusuf in the house 


£ 
3 
3 
4 m 
8 
a 


joseph at home 
الشكل 5 : توضيح لخيارات البحث أثناء ترجمة جملة عربية إلى الإنجليزية.‎ 

إن مهمة البحث عن أفضل العبارات والكلمات لترجمة جملة ما ليست سهلة. ومن 

أشهر خوارزميات البحث الفعالة ما يعرف بالبحث الشعاعى (beam search)‏ الذي 

يستكشف أفضل الخيارات» لكنه لا يضمن الحل الأفضل. ويبدأ ببناء cole‏ جزئية 

تعرف بفرضيات (hypotheses)‏ ثم يوسع كل فرضية بشكل محدود حتى يصل إلى 

ile‏ الجملة (الشكل 0( وأفضل فرضية هى التى تحقق أعلى احتالية leel‏ نموذجى 
اللغة والترجمة. 
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IA yHb ywst ty Albyt  Aljlws 


m 


iik E | 
residence 


الشكل ه: بحث شعاعى (beam search)‏ عن أفضل ترحمة لجملة عربية. 
وبالرغم من أن أنظمة الترجمة تقوم على نموذجي اللغة والترجمة إلا أن الباحثين 
قاموا بإضافة العديد من الأجزاء التى تحسن الترجمة من خلال إطار يسمى log-)‏ 
(linear framework‏ يمن من إضافة أجزاء أخرى لنظام الترجمة p; (£e)‏ وإعطائها 


وزناً محدداً ,ام يعكس أهميتها كالتالي: 
n‏ 
€best = argmax, 2. Aj *log pi(fe)‏ 
ie(tImJex,d,w]‏ 


وعادة ما تحتوي أنظمة الترجمة الإحصائية كنظام موسز (Moses)‏ مفتوح المصدر 
(koehn, 2007)‏ على مسة أجزاء هى (language model) ; (translation model)‏ 
(word penalty) ; (edenis model) ; (lexical model),‏ وکل جزء يمكن 
إعطاؤه وزناً اعتباطياًء إلا أن تحديدها يكون عادة من خلال اختبار النظام على مجموعة 
من الحمل laa ig AM‏ بعدة أوزان» ومن ثم اختيار الأفضل discriminative)‏ 
8 وهناك العديد من الخوارزميات التي تقوم بذلك أشهرها (MERT)‏ 
الموضحة في الشكل 5 )2003 (Och,‏ 


-A4- 
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O‏ 


initial parameters 


i converged 


final parameters 


الشكل ": طريقة ضبط الأوزان لأجزاء نظام الترجمة. 
هذا وقد كان لمدينة الملك عبدالعزيز للعلوم والتقنية جهود في بناء أنظمة ترجمة 
لخدمة المملكة. كان بدايتها التعاون مع شركة آي بي el‏ الرائدة في هذا المجال عام 
e2009‏ وخلال هذا التعاون تم بناء نظام ترجمة من العبرية إلى العربية والفارسية إلى 
العربية بجودة منافسة للأنظمة التجارية نظرأ لاعتّادهما على نصوص مترحة بجودة 
عالية تجاوزت 0 مليون كلمة لكل لغة. الشكل ۷ يوضح واجهة النظام على الشبكة. 


الترجمة الآلية (نسكة تجريبية) 
المركز الوطتي لتقنية الذكاء الأمسطناعي والببانات الشخمة 


الترجمة 

| برجم‎ [iaa | اجن‎ 
TS PIE AED SED م‎ “EDS NTE FS Dem EKS SFY i6 يسيم‎ 2703 KESR OS مدينة الملك عبدالعزبز‎ 
kT دروي‎ "srt وجو‎ r ner" hm 3 ET FT جور‎ YK YT Tomren KACST للعلوم والتقنبة‎ 


الشكل ۷: واجهة نظام ترجمة من العبرية والفارسية إلى العربية (translate.kacst.edu.sa)‏ 


-ا/م- 
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n————————————-‏ 


- تقيبم جودة الترجمة 

يعد تقييم أداء أنظمة الترجمة أمراً صعباً وذلك لتعدد الترجمات من شخص لآخر 
subjective)‏ المثال التالي Glo‏ ما يذكر لتوضيح المشكلة وهو مأخوذ من مجموعة 
تقييم نيست (NIST)‏ لعام ١‏ ١٠٠م.‏ لاحظ أن هناك عشر ترجمات مقبولة هذه الجمل 
باللغة الصينية. 


XA ربالا‎ HS Kê LIE B UEZ FE AX. 


Israeli o-cials are responsible for airport security. 
Israel is in charge ofthe security at this airport. 
The security work for this airport is the responsibility of the Israel 
government. 
Israeli side was in charge of the security of this airport. 
Israel is responsible for the airport's security. 
Israel is responsible for safety work at this airport. 
Israel presides over the security of the airport. 
Israel took charge ofthe airport security. 
The safety ofthis airport is taken charge of by Israel. 
This airport's security is the responsibility of the Israeli security 
o-cials. 


هناك معياران لتقييم الترجمة هما مدى الدقة في نقل المعنى (adequacy)‏ ومدى 
سلاسة الترجمة (fluency)‏ وقد تم اقتراح العديد من الأدوات لقياس دقة المعنى 
والسلاسة يمكن تصنيفها إلى مجموعتين automatic); (manual metrics)‏ 
(metrics‏ وتعد المجموعة الثانية عملية أكثر وأقل كلفة نظراً لغياب العنصر البشري 
فيها وثبات النتائج عند إعادة القياس (consistent)‏ حيث lel‏ تعتمد على ترجمات 
احترافية (references)‏ سابقة للنصوص المراد قياس أداء النظام فيها. ومن أبسط 
أدوات القياس (precision)‏ و (recall)‏ والتي يمكن حسابها كالتالي: 


AY 
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M correct words 
precision = 
translation length 


correct words 
recall = سح‎ —— 
reference length 
ضعفها تجاهل ترتيب الكلمات والذي يعد أساساً في سلاسة‎ bus إلا أن أكبر‎ 
والتى تقيس الحد الأدنى من‎ (WER) الترجمة. ويمكن معالجة ذلك من خلال أداة‎ 
الخطوات اللازمة لتحرير ترجمة النظام لتصبح مثل الترجمة الاحترافية كالتالي:‎ 


substitutions + insertions + deletions 
WER = 
reference length 


ومن أشهر أدوات القياس حالياً بلو (BLEU)‏ من مركز أبحاث واتسون في آي 
بي إم والتي تستخدم في أغلب أبحاث الترجمة الآلية رغم أنها من أوائل ما تم اقتراحه 
.(Papineni et al., 2002)‏ وتقوم على قياس دقة الترجمة على مستوى العبارات 
de (S (n- grams)‏ 


n 
BLEU = BP + exp Y 2: * log (precision;) 
1-1 
translation length 


BP = min(1, 
dunt reference length 


وتعرف (BP)‏ على أنها عقوبة الإيجاز فكلما كان طول الترجمة أقصر من الترجمة 
الاحترافية نقصت نقاط بلو والتي تصل إلى ٠٠١‏ نقطة عند مطابقة ترجمة النظام 
cole AJ‏ الاحترافية. وتحقيق كل نقطة ليس بالآمر السهل» حيث إن أفضل أنظمة 
الترجمة تصل إلى ٠١‏ نقطة )2016 .Qunczys-Dowmunt et al.,‏ 
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1 - عصر جديد 

خلال السنوات القليلة الماضية حدث تغير جذري في أبحاث ie JE‏ الآلية 
(paradigm shift)‏ من المنهج الإحصائي إلى ما يعرف بالترحمة الآلية العصبية neural)‏ 
(machine translation‏ المعتمدة على الشبكات العصبية العميقة deep neural)‏ 
55 في ترجمة كامل الجملة باستخدام نموذج واحد متكامل end-to-end)‏ 
(system‏ إن استخدام الشبكات العصبية ليس بالأمر الجديد» فقد تم اقتراح نماذج 
مشابهة لما هو معمول به الآن قبل أكثر من عقدين من الزمن )1997 (Forcada,‏ كما في 
الشكل ۸. إلا أن تعقيدها تطلب حواسيب قوية لتدريبها على بيانات كافية وهو مالم 
يكن متوفراً. لذلك كانت نتائج تلك النماذج ضعيفة مما أدى إلى هجران تلك الأفكار. 


50-6010600 -6 
M —> —— — N 


DECODER 


r(‘1011 =  s(:*0001) 


ENCODER 


OO-O|[OOOO -O 


rr r كد‎ 


u(*1) r(‘101°) 
(Forcada, 1997) الشكل6: بنية لنظام ترحمة من مرحلتين: تشفير ثم فك التشفير‎ 
مع مرور السنوات زادت سرعة الحواسيب وبدأت تستبدل النماذج العصبية أجزاء‎ 
عن نمذجة اللغة في‎ (Schwenk, 2007) من أنظمة الترجمة» كورقة هولغر شونك‎ 
والتى يقوم‎ (Bengio and Ducharme, 2001) فضاءات مستمرة اعتماداً على فكرة‎ 
هق أرقام‎ Ns d» ذات معنى‎ (vectors) جوهرها على تمثيل الكلمات بمتجهات‎ 
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اعتباطية يمكن تعلمها من نصوص كثيرة غرفت لاحقاً بتضمين الكلمات word)‏ 
(embedding‏ کا هو موضح في الشكل A‏ 
P(w;-1|h;) P(w;—i|h;) P(w;-n|h;)‏ 


tput 
layer. 
— uei 
w Probability hidden 
2 estimation layer 
$ 
Q 
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الشكل 4: بنية شبكة عصبية لنمذجة اللغة من خلال تمثيل سياق الكلمة في متجه واحد 
(projection)‏ ومن ثم حساب احتمالية الكلمة بناءً عليه )2007 (Schwenk,‏ 
وقد أظهرت التجارب تحسناً كبيراً في الترجمة» إلا أن تبنيها كان حدوداً نظراً للكلفة 
الحوسبية القائمة بشكل رئيس على حساب المصفوفات. هذا وقد ظهرت تجارب 
لتدريب هذه الشبكات العصبية على وحدات معالجة الرسومات (GPUS)‏ السريعة في 
معالجة المصفوفات. إلا أن عدم توفرها لكثير من الباحثين حال دون انتشارها. 
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وقد كان لورقة )2014 (Devlin et al.,‏ أثر على المجتمع البحثي للنتائج القوية التي 
عرضتها ومنحت جائزة أفضل ورقة في مؤتمر (ACL)‏ فقد أظهرت قدرة ناذج اللغة 
المبنية على الشبكات العصبية على تحسين أفضل أنظمة الترجمة من اللغة العربية والصينية 
إلى الإنجليزية. ففي (NIST OpenMT) ila‏ لتقييم أنظمة الترجمة عام 7١١٠م‏ 
حقق المركز الأول في الترجمة من العربية إلى الإنجليزية 54,5 ikä‏ بلو (BLEU)‏ 
واستطاعت الورقة تخطى ذلك بأكثر من bla Y‏ محققة 8 , oY‏ نقطة. 


mm حجر‎ (Kalchbrenner and Blunsom, 2013) 335 ويمكن اعتبار‎ 

لأنظمة الترحمة الآلية العصبية من خلال طرح نموذج متكامل end-to-end) ie iJ‏ 
Cencoder-decoder‏ . وقد تم استخدام شبكات عصبية التفافية convolutional)‏ 
(neural networks‏ لتشفير الحملة المراد 5 (encoding) lgze‏ ومن ثم فكها 
(decoding)‏ لتوليد الترجمة من خلال شبكات عصبية متكررة recurrent neural)‏ 


. (networks 


وبالرغم من نجاحات الشبكات العصبية إلا أنها لم تستطع التفوق على المنهج 
التقليدي في ترجمة الجمل الطويلة. وقد طرحت العديد من الحلول أبرزها استخدام 
(LSTM or GRU units)‏ وهى عبارة عن وحدات عصبية قادرة على التذكر 
.(Sutskever eral: 2014; Cho et al., 2014)‏ إلا أن النموذج في ذلك الوقت 
كان قائ) على تشفير الجملة المراد ترجمتها إلى متجه 63( حجم ثابت (الشكل »)٠١‏ سواءً 
طالت الجملة أم قصرت» وهو ما عد عقبة أمام ترجمة الجمل الطويلة. 


A= 
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Encoder 


الشكل ٠٠‏ : شبكة عصبية متكررة لشفير الجملة في منجه ثابت الحجم ثم ترجمتها )2014 (Cho et al.,‏ 

هذا وقدقام باحثون بابتكار آلية الانتباه الفعالة (attention mechanism)‏ الموضحة 
في الشكل ١١‏ والتى تخطت عقبة ترجمة الجمل الطويلة )2015 (Bahdanau et al.,‏ 
وخلال سنتين تحول المجتمع البحثي للمنهج الجديد القائم على الشبكات العصبية. ففي 
عام امل ٣م‏ كان هناك نظام واحد فقط عصبى صرف (pure neural)‏ مقدم للتقييم 
في مؤتمر الترجمة الآلية المعروف (WMT)‏ وني عام ۷٠١۲م‏ تحولت أغلب الأنظمة 
المقدمة في المؤتمر إلى الشبكات العصبية )2017 .(Koehn,‏ 


—AN- 
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ا 


الشكل :١١‏ شبكة عصبية للترحمة JG‏ الانتباه )2015 (Bahdanau et al.,‏ 
لقد كانت آلية الانتباه فعالة لدرجة أن فريقاً بحثياً من شركة قوقل نشر بحثاً 
يصف (Transformer) "I [ETE‏ معتمداً ue‏ فقط دون الحاجة إلى شبكات 
عصبية متكررة (RNN)‏ أو التفافية (CNN)‏ مما سمح بتدريب النموذج بشكل متواز 

.(Vaswani et al., 2017) وبوقت أقل بكثر من السابق‎ (parallelization) 

ويعتبر هذا المجال البحثي نشطاً جداًء ولا يسعنا في هذا الفصل تغطيته Ob‏ تم ذكر 
أهم الأبحاث فيه. وتجدر الإشارة إلى أن مدينة الملك عبدالعزيز للعلوم والتقنية عملت 
مؤخراً على تجارب مكثفة لبناء أنظمة ترجمة عصبية من اللغة العربية إلى اللغة الإنجليزية 
CAlrajeh, 2018)‏ والعكس كذلك» حيث إن متوسط جودة هذه الأنظمة قارب ٠٠‏ 


-//- 
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o EE NN‏ ^ 


ikä‏ بلو (BLEU)‏ ومما يسهل على الباحثين والمطورين الاستفادة والمساهمة في هذا 
المجال وجود كثير من الأنظمة مفتوحة المصدر. أهم تلك الأنظمة وروابط الوصول ها 
كالتالي )2017 :(Koehn,‏ 


Nematus (based on Tensorflow): https: / /github.com / 
EdinburghNLP /nematus 


Marian (a C++ re- implementation of Nematus): https: / /marian-nmt. 
github.io / 


OpenNMT (based on Torch /py Torch): http: / /opennmt.net / 
xnmt (based on DyNet): https: / /github.com /neulab /xnmt 
Sockeye (based on MXNet): https: / /github.com /awslabs /sockeye 


T2T (based on Tensorflow): https: / /github.com /tensorflow / 
tensor2tensor 


-V‏ أبرز التحديات 

رغم قدم مشكلة الترجمة الآلية والقفزات في سبيل حلها إلا أنه ما JU‏ هناك الكثير 
من التحديات. وسنتطرق إلى ثلاثة تحديات تواجه cel‏ الحديث (neural approach)‏ 
في الترجمة )2017 .(Koehn,‏ 

التحدي الأول ضعف جودة الترجمة عند عدم تطابق المجال بين النظام والنصوص 
al‏ ترجمتها (domain mismatch)‏ . من المشاكل المعروفة أن العبارات تختلف ترجمتها 
من مجال لآخر فترجمة الأخبار ليست كترجمة المقالات العلمية لذلك من المهم تدريب 
النظام على نصوص من نفس المجال. إلا أنه كثيرا ما تتوافر النصوص خارج المجال 
المستهدف فيتم تدريب النظام عليها ثم تكييفه على المجال المحدد باستخدام نصوص 
قليلة (domain adaptation)‏ . وقد أظهر التجارب أن الأنظمة الإحصائية التقليدية 
تعطي نتائج جيدة خارج المجال الذي تدربت عليه بعكس الأنظمة العصبية. 

التحدي الثاني الحاجة لنصوص كثيرة لتدريب النظام قبل رؤية أي تحسن amount)‏ 
(of training data‏ فرغم أن أداء الأنظمة العصبية تخطى الأنظمة الإحصائية إلا 


xA 
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أن ذلك مشروط بتوفر نصوص كثيرة للتدريب تتجاوز العشرة ملايين كلمة. لذلك 
مازالت الأنظمة العصبية تواجه تحديا في ترجمة اللغات قليلة المصادر low-resource)‏ 
(languages‏ . 

التحدي الثالث حساسية النظام لنصوص التدريب التي ترجمتها غير دقيقة أو غير 
سليمة لغويا (noisy data)‏ . إن الحصول على بيانات تدريب عالية الحودة مكلف 
للغاية لذلك أحيانا يتم الاعتماد على نصوص فيها ترجمات معيبة. وما هو معروف عن 
الأنظمة الإحصائية lel‏ صلبة تجاه البيانات المشوشة» ففي إحدى التجارب تم تشويش 
نصف بيانات التدريب ومع ذلك حافظ النظام على أدائه» وما فقده أقل من نقطة بلو 
(BLEU)‏ واحدة بخلاف الأنظمة العصبية التي تعتبر حساسة للتشويش. 


۸- خاقة 

قدمنا في هذا الفصل نبذة ختصرة عن تاريخ الترجمة الآلية والذي بدأ مع نشوء علم 
الحاسب. ثم تطرقنا إلى مناهج الترجمة الآلية والتي تتدرج في مستوى معالجتها للغة بدءا 
من الترجمة المباشرة إلى الترجمة التجريدية. كانت الترجمة الآلية الإحصائية أهم المناهج 
المهيمنة حتى وقت قريب إلى أن دخلت تقنيات التعلم العميق وأحدثت نقلة في هذا 
المجال ذخلت معها الترحة الآلية عضرا جديداً JE Y‏ نعيش أحداثه. 

على مدى عدة عقود تطورت الترجمة الآلية حتى أصبحت تقنية يستخدمها الجميع 
ويعتمد عليها ا مترجمون في تسهيل عملهم. وكثير من الشركات كقوقل ومايكروسوفت 
تعرض خدمات الترجمة بأسعار متدنية أو جانية لأشهر اللغات ما تاح فرصة التواصل 
والاطلاع على ما عند الأمم الأخرى. 

وقد تم التطرق إلى أهم الأبحاث. إلا أن هذا المجال لا زال نشطاً بحثياًء والكثير من 
العجارب تشر ستوياً de‏ عادد من اللغات كالأوربية والصينية والعربية..وما JU‏ هناك 
فرص لتحسين أداء الترجمة الآلية لتجاوز التحديات الكثيرة التي تطرقنا إلى بعضها. 
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ملخص الفصل 

تمثل الكلمة ركيزة مهمة في فهم واستيعاب الخطاب ال مكتوب. فلا عجب أن نجد 
أبحانًا كثبرة تصبٌ في تحليل الجوانب المختلفة للكلمة أو تحاول تمثيل الكلمة اللغوية 
بشكل يفهمه الحاسب الآلي. هيدف هذا الفصل إلى بناء مقدمة لغير المتخصص لفهم 
أحدث الخوارزميات المستخدمة في بناء الناذج الحاسوبية للكلمة العربية الفصيحة 
المكتوبة. كما يحاول تفسير أسباب الصعوبات التي تكتنف نمذجة الكلمة العربية تحديدًاء 
بدءًا بنظامها الصرفي الغير خطي ومرورًا بغناها الصرفي وانتهاءً بمستويات الغموض 
العالية في النص العربي. كما يقدّم نمطين مشهورين لتحليل الكلمة: اللغوي والتوزيعي» 
ويقارن بينهماء وذلك عبر مقدمة لكل نمط وتحليل الخوارزميات المستخدمة وأشهر 
الأدوات المتاحة. وني الختام» نسلط الضوء مرة أخرى على قصور بعض الخوارزميات 
عند تحليل ونمذجة اللغة العربية» وسبل ووسائل مقترحة لمعالجة أوجه القصور. 


د. عبدالر حن بن محمد العصيمى 

أستاذ مساعد في كلية لدبي بجامعة الإمام محمد بن سعود الإسلامية» ومهتم 
وباحث في مجال معالجة اللغة العربية حاسوبيًاء وشغوف بالبريجة وتطوير الأنظمة. 
نشر مجموعة من الأوراق في DAE‏ ومؤتمرات علمية» وقدم محاضرات في العديد من 
الملتقيات. نشر أدوات حاسوبية تُعنى بمعالجة اللغة العربية GN‏ برخصة متاحة للكل. 
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Y‏ — مقدمة 
تطورت خوارزميات الحاسب الآلي تطورًا كبيرًا في آخرين عقدين من الزمن. فلم 
يعد الحاسب فقط قادرًا على تنفيذ سلسلة من العمليات التي يمليها له المبرمج» بل 
أصبح C55‏ 5 وقادرًا على اتخاذ القرار من تلقاء نفسه. ولاتخاذ القرار بشكل صحيح» LY‏ 

من طرق ووسائل لتقييم المعطيات وذلك من أجل اتخاذ أفضل القرارات. 

يمكننا تعريف تعلم الآلة كالتالي: «الاستمرار في تطوير مهمة ما (م) بناء على خبرة 
ما (خ) باعتبار وحدة تقييم أداء معينة (ق)» )1997 (Mitchell,‏ . فمثلا إذا كانت 
المهمة (م) هي التعرف على جنس الإنسان في صورة ماء والخبرة (خ) التي اكتسبها 
الحاسب عبر إعطائه مجموعتين من الصور: رجال ونساء» OB‏ خوارزميات تعلم UYI‏ 
ستستمر في محاولة بناء مجموعة من الناذج (النمذجة) يستطيع من خلاها الحاسب أن 
يتنبأ أو يتوقع الجنس من الصورة المعطاة. وتكون مهمة وحدة التقييم اختيار أفضل 
نموذج من هذه النماذج المستخرجة. 

١‏ نمذجة اللغة 

لكن ما المقصود بنمذجة اللغة حاسوبيًا؟ يمكن للحاسب MI‏ عبر خوارزميات 
الذكاء الاصطناعيى بناء تمثيل معين للغة وذلك لاستخدامه في تطبيقات لاحقة. فمثلا» 
أحد التطبيقات المشهورة والمستخدمة بكثرة في اهواتف التنقلة هي تطبيق لوحة المفاتيح 
الذكية؛ والتي تتيح للمستخدم عند كتابة كلمة» اختيار كلمة تالية ها. فمثلاء عند كتابة 
كلمة «السلام» يتيح الحاسب عدة اختيارات مثل «عليكم» أو «عليك». لكن كيف 
يمكن للحاسب «توقع» الكلمة التالية؟ لقد بنت خوارزمية الذكاء الاصطناعي (مثلا 
خوارزمية Skip-gram‏ وال Ls‏ بالسياق من الكلمة المعطاة) تمثيلاً لكل كلمة في 
اللغة يحدد موقعها من اللغة ككل» لذا فهو يستطيع أن يتنبا بأقرب الكلمات اللاحقة ها. 

وحين) نريد نمذجة لغة ما كاللغة العربية» Ob‏ المهمة تكون عادة أصعب وأعقد؛ ذلك 
أن تحليل اللغة عادة ما يصحبها غموض في مستويات لغوية عدة كالصوت والصرف 
والنحو والمعجم. فمثلا الضمير في قولك: JUD‏ زيد أنه مريض» غير معلوم؛ فقد يكون 
ae)‏ ا dites el a elec‏ اخ فنا مرو ضيه ide di lodo‏ 
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وسلم- قوله: «نحن من ماء)» فتوهُم المخاطب أنهم من ماء العراق. والغموض معلوم 
في النص العربي المكتوب» خصوصًا عند غياب التشكيل أو الترقيم أو ال همزات. وقد 
عمدوا قديًا إلى الإعجام (إضافة النقاط إلى الحروف) من أجل إزالة جزء من الغموض 
(ومثله التشكيل). إلى جانب الغموضء هناك سبب آخر لصعوبة نمذجة اللغةء ألا 
وهو أن المتحدثون قد لا يلتزمون بجمل صحيحة نحويًا ودلاليًا وإملائيًا. والأمثلة 
على ذلك كثيرة» مثل الأخطاء الإعرابية والإملائية وأحيانًا الدلالية أو المعجمية؛ فقد 
يستخدم مفردة ليريد به مفردةً أخرى. 


Y‏ و١‏ نمذجة الكلمة العربية 
هيدف هذا الفصل إلى بناء مقدمة لغير المتخصص ف كيفية نمذجة جزء محدد من 
اللغة: «الكلمة العربية الفصيحة المكتوبة». وبذلك تخرج اللغات غير العربية» وكذلك 
العامية التي لا يوجد لما نظام كتابي معياري. كم تخرج المهام التي تعنى بالفقرات أو 
النص كاملاء كتلخيص النصء أو استخراج موضوع الفقرة. كا يخرج من ذلك أي 
دراسة للكلمة المنطوقة والصعوبات التى قد تواجه الحاسب مثلا في تمييز الكلمة 
المنطوقة. وعند إيراد لفظة «الكلمة» فإن المقصود هى الكلمة المكتوبة (مجموعة الحروف 
التى تحدها مسافتان) لا الكلمة النحوية (مثل الضمير المتصل). 
تناقش الورقة أيضًا آلية وصعوبات خوارزميات الذكاء الاصطناعي التى ag‏ 
للقيام بمهام كثيرة متعلقة بالكلمة العربية تحديدًا: مثل تعيين قسم الكلام للكلمة 
تعيين نوع الكلمة إذا كانت dle‏ تعيين نوع الاسم من حيث الجمع أو التثنية أو الإفراد 
وغير ذلك. 
ولتوضيح المقصود من المهام» يمكننا دراسة الحديث الشريف التالي: 
«لا يؤمن أحدكم حتى يكون هواه تبعًا لما جئت به» (الأربعين النووية) 
فقد نبني عدة eoo‏ تدرس الكلمة: 
* تعيين قسم الكلمة: لا/ حرف_نفي يؤمن/ فعل .. إلخ. 
* تقسيم أجزاء الكلمة: أحدكم/ أحد+كم هواه/ هوا+ه لما/ ل+ما .. إلخ. 
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* التعرف على أصل الكلمة: يؤمن/ آمن أحدكم/ أحد يكون/ كان folga‏ هوی 
.. إلخ. 
° تشكيل الكلمة: يؤمن/ يُؤْمِنْ أحدكم/ iei‏ .. إلخ. 
* التعرف على الكلمة معجميًا: يؤّمن/ آمن_التصديق (وليس الانقياد والطاعة) 
هواه/ هوى_لميل (وليس العشق) .. إلخ. 
. التعرف على عائد الضمير: أحدكم/ المخاطبين هواه/ أحدكم جئث/ المتكلم , 
e‏ 
* التعرف على بعض الخصائص الصرفية (مثل جنس الاسم وعدده» نوع وإعراب 
الفعل): يؤمن/ مرفوع يكون/ منصوب. 
* استخراج معاني ومرادفات وأضداد من القاموس الشبكي للكلمات :Wordnet‏ 
يؤمن/ الإيان»الدين-مرادف:يصدقءيتبع»ينقاد - ضد: يكذب» جحد 
هذه JA cte)‏ النمط اللغوي لدراسة وتحليل الكلمة؛ وهذه Je Qu ce)‏ 
مرآة للعلم اللغوي واللساني الذي تطور عبر السنين. في السنوات الأخيرة» ظهر وانتشر 
نمط آخر لنمذجة الكلمة بناء على نظرية التو زيع الدلالي «semantic distribution‏ 
والتى تستند على نظرية فيرث(1957 (Firth,‏ والتى يقول فيها إنه «(يمكن التعرف على 
الكلمة من الكلمات المصاحبة لما في النص). وبناء على النظرية؛ أصبحت مهمة الحاسب 
التعرف على الكلمة e)‏ بناء على الكلمات المصاحبة لها (أو السياق) (خ). هذه المهمة 
مشابهة للسؤال التعليمي الذي يطرحه المعلم على متعلمي لغة ما ليكملوا الفراغ في 
جملة بكلمة مناسبة» وهم بذلك يقيسون مدى استيعاهم ليس فقط للكلمة وإن| للسياق 
كذلك» وللتناسب بين الكلمة والسياق. وكذا الحاسب» كلما كان أكثر دقة في اختيار 
الكلمة الأنسبء كان تمثيل الكلمة أو نمذجتها أكثر فائدة ونفعًا. 
كلا النمطان (اللغوي والتوزيعي) يمكن استخدامها لتمثيل الكلمة حاسوييًا. 
والتمثيل الحاسوبي أساسي للقيام بعدد كبير من العمليات. إذ لا يمكننا إجراء 
العمليات الرياضية على الكلمة وهي في شكلها الخام» مثل قياس المسافة أو الفرق. 
فمثلاء لا يمكننا القول (بسهولة) إن كلمة (مسجد» هى مفرد كلمة «(مساجد» ولا أن 
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كلمة «(مسجد» ھی أقرب لكلمة «صلاة» من كلمة «شمس» وذلك فقط من خلال 
محرفتتا TNNT‏ ولت أن الأ SM‏ التي تمثل الكلمة. بعبارة أخرىء نريد أن 
نكون قادرين على استنباط معادلة ne:‏ أن الفرق بين البعد بين «(مسجد» و)اصلاة» 
أكبر من البعد بين امسجد) واشمس»): 
مسجد - صلاة > مسجد - شمس 

هذه العمليات الرياضية قد تكون ضرورية في البحث. فيمكننا مثلاً عند البحث 
عن الصلاة» إظهار نتائج مثل أقرب المساجد إلى الباحث. عبر تمثيل الكلمات الثلاث 
بالنمط اللغوي أو التوزيعي أو بالإثنين da‏ فنستطيع المقارنة بين الصفات المستخرجة 
لكلات البحث. 

وهذه الناذج بمجموعها (أو بشكلها الرياضي) تعتبر مدخلاً Ces‏ لتطبيقات أكثر 
تعقيدًا مثل استخراج المعلومات أو الترجمة الآلية أو تحليل الخطاب أو تلخيص النص 
أو توقع الكلمة التالية في لوحة المفاتيح الذكية» كا أسلفنا من قبل. 


Y‏ - صعوبات نمذجة الكلمة العربية 

تواجه خوارزميات الذكاء e Ula 2 VI‏ | المصممة لتحليل ونمذجة الكلمة العربية 
col pae‏ عدة: فاللغة العرية تضنف eh‏ أغتى d o coll,‏ والنظاء الصرف فيها 
ليس خطيّاء ك| أن مستويات الغموض فيها عالية بسبب النقص المعتاد في اتباع النظام 
الكتابي (إهمال الهمزات والتشكيل مثلا). هذه العناصر الثلاثة تشكل أهم المصادر 
لصعوبة تحليل الكلمة العربية. 

فاللغة العربية هى لغة غنية صرفيًا .(Morphologically Rich Language)‏ 
وهذا الغنى جعل التفاعل بين الصرف (دراسة بنية الكلمات) والنحو (دراسة علاقات 
الكلمات في الجملة) أكثر تعقيدًا. Us y‏ كانت اللغة أغنى صرفيّاء كانت الجملة تمتاز 
بمرونة أعلى في صفاتهاء كالمرونة في ترتيب الكلمات )2010 .(Tsarfaty et al,‏ 
E‏ يمكلا قول: شرب es‏ غالا :وضرب غالا عمد eol e yl Asse T‏ 
(الخصيصة الصرفية) سمحت بتقديم المفعول على الفاعل. وهذا قد يفسر لنا أهمية 
علامة الإعراب في النظرية النحوية التقليدية. هذه المرونة تجعل من خوارزميات الذكاء 
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الاصطناعي أقل قدرة على نمذجة اللغة (بالمقارنة مع لغة أقل مرونة كاللغة الإنجليزية) 
مع افتراض أن الخوارزميتين أعطيتا نفس القدر من الأمثلة للتمرين )2014 (Heintz,‏ 

وهذا الغنى الصرفي يجعل الكلمة العربية نفسها كثيرة الاشتقاقات والالتصاقات» 
وذلك لترميز هذه الخصائص الصرفية. فعادة ما تحتوي الكلمة العربية الواحدة على 
مجموعة من الالتصاقات التي تبين خصائصها الصرفية» مثل «ون» لبيان الجمع 
والمذكرء GC‏ في الفعل المضارع لبيان المتكلم والجمع. و«ت» كذلك لبيان إما المؤنث 
أو المخاطب كا في «أنت تصوم 1525( و«فاطمة تصوم». وهذه الالتصاقات ليس مميزة 
بعلامة معينة ما يصعب LE‏ اللواصق ويجعل الكلمة غامضة ومبهمة. فليس من 
السهولة بمكان تييز الفاء الملتصقة في بداية الكلمة (حرف الاستئناف والعطف)» كا 
في الكلمة «فهم». فقد تكون الفاء ملتصقة فتكون مع الضمير المنفصل (فهُمٌ) أو غير 
ملتصقة فيكون الفعل «فهم». إضافة لذلك» بعض العمليات الالتصاقية تغير في شكل 
الكلمة؛ أي أن الكلمة بعد الالتصاق تتغير طبقا لقواعد صعبة النمذجة حاسوبيًا دون 
النظر في النظام الصرني الغير خطي للغة العربية» مثل التصاق الكلمات معلولة الآخر 
بلاحقة: يدعو - يَدُعون. JU‏ - قلت. 

والخصائص الصرفية ليست Glo‏ التصاقية» واللغة العربية -بالإضافة إلى العبرية- 
تتميز بكونها لغة سامية ذات نظام غير خطي وتبنى الكلمة فيها بناء على الوزن والجذر. 
وهذا جعل بعض الخصائص الصرفية صعبة التعلم من قبل الخوارزميات الحاسوبية. 
فمثلاء التعرف على الجمع في جموع التكسير ليس التصاقياء وإنا اشتقاقيا مبني على وزن 
معين. وكذلك خوارزميات التعرف على جذر أو أصل الكلمة (Stemming)‏ عادة ما 
تكون النتائج فيها ليست مثالية. 

ونظرًا لأن الكلمة العربية كثيرة الاشتقاقات والالتصاقات» فإن عدد الأشكال 
المحتملة للكلمة الواحدة dis dle‏ ما يؤدي بالضرورة إلى زيادة حجم وتباعد 
(sparseness)‏ المفردات التي تخزن في النظام (ونقصد بها أشكال كل الكلمات 
العربية). وهذا التباعد يجعل من احتماليات توافق شكل كلمة معينة في النظام مع شكل 
كلمة أخرى محدودًا وقليلا؛ مما يؤدي إلى تقليل كفاءة خوارزميات الذكاء الاصطناعي. 
ولغليل آثار هذه الشكلة يعمد كثير من الباحتين إل تبرئة الكلمة آلا إل لجزاتها 
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الرئيسية» فتصبح كلمة «ساعدوني» -مثلاً- مكونة من ثلاثة أو أربعة أجزاء حسب 
معايبر التجزثة المستخدمة. وهذه التجزثة الآلية قد أثبعث فاعليتها مثلاً في تطبيقات 
is jl‏ الآلية )2006 (Habash & Sadat,‏ لكنها لا تخلو من أخطاء تؤثر في ما يلحق 
من خوارزميات. 

ولأن الكلمة العربية غنية صرفيًا واشتقاقيّاء فإن عدد الخصائص المستخرجة للكلمة 
الواحدة أكبر من غيرها من اللغات مثل اللغة الإنجليزية. ففي حين يكفي لوصف 
كلمة إنجليزية أن ترمز برمز tag‏ ضمن مجموعة رموز تتراوح بين ١‏ إلى ٠١‏ رمرّاء Op‏ 
مجموعة الرموز المحتملة لوصف الكلمة العربية تتجاوز ذلك بكثير وعادة ما تكون فوق 
المائة رمز )2010 (Habash,‏ ففي حين يكفي أن نَصِفَ الاسم في اللغة الإنجليزية إما 
باسم_مفرد أو um eal‏ فإن الكلمة العربية «فرسٌ» قد ترمّز برمز أكثر تعقيدًا مثل 
اسم_مفرد_مؤنث_مرفوع_نكرة. والحاجة إلى Gi‏ من ا لخصائص يعتمد بالدرجة الأول 
على ال هدف المرجو من نمذجة الكلمة؛ فقد يحتاج إلى أغلب الخصائص في حالات الترجمة 
الآلية -مثلا-» بين| يكفي فقط إرجاع الكلمة إلى الأصل في تطبيقات البحث والتقصي. 


بقي أن نشير إلى السبب الأخير في صعوبة نمذجة الكلمة العربية. وهو تسرب كثير 
من المحددات اللغوية عند كتابة النص» مثل غياب التشكيل أو ال همزات. هذا التسرب 
يزيد بشكل كبير من غموض الكلمة العربية. ففي دراسة لغموض الكلمة في كتاب 
رياض الصالحين )2018 LOLS y «(Alosaimy & Atwell,‏ على مجموعة من القواميس 
الحاسوبية» كان عدد الاحتالات التحليلية للكلمة الواحدة (التحليل يشمل أصل 
الكلمة وقسمها Old s‏ خصائص صرفية) يقفز من معدل 5.87 احتمال إلى ما يقرب من 
5 اال عند غياب التشكيل. 


I o7 Y‏ زميات الذكاء الاصطناعى في نمذجة الكلمة لغويًا 

كا أسلفنا فإن الطرق التحليلية اللغوية تشمل مجموعة الخوارزميات التي تنحى إلى 
استخراج الخصائص اللغوية SIS‏ وبعكس الطرق التحليلية التوزيعية التي تعنى 
باستخراج موقع الكلمة والعلاقات بينها وبين الكلمات الأخرى. أحد أهم الفروقات 
بين هذين الصنفين هو أن النمط اللغوي عادة ما يكون موجها تصنيفيًا بعكس النمط 
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التوزيعي الذي يكون غير موجه ويدف إلى بناء مضامين الكلمة word embeddings‏ 
e‏ سنرى في الفصل القادم). 

نقصد بتعلم الآلة ا موجه العملية التي تحتوي على مجموعة من البيانات للتدريب «S‏ 
وهذه البيانات هي عبارة عن أزواج من المدخلات والمخرجات المطلوبة -GGz)‏ أي 
أنه لابد من أمثلة معطاة يتم التدريب عليها. ويكون المدخل x‏ عنصرًا في المجموعة X‏ 
والمخرج 2 عنصرًا في المجموعة -Z‏ كما يضاف إلى مجموعة البيانات للتدريب» مجموعة 
بيانات أخرى منفصلة للتقييم ‘S‏ (وأحيانًا مجموعة ثالثة للتحقق (validation set‏ 
وكلا المجموعتين S‏ و (S‏ يمكن اعتبارهما مستخرجتين بشكل مستقل من نفس المصدر 
.(distribution) Dyxz‏ والهدف الأساسي من الخوارزمية هي استخدام مجموعة 
التدريب لبناء نموذج» مع الحرص على تقليل الخطأ الناتج E‏ في مجموعتي التدريب 
والتقييم بقدر الإمكان. وعادة في الخوارزميات ذات العوامل Parametric algorithms‏ 
(مثل الشبكات العصبية) يكون تطوير الخوارزمية عبر التعديل في العوامل التي تؤثر في 
دالة حساب الفقدان l .(Loss function)‏ 

فمثلاء لنأخذ عملية تحديد قسم الكلمة POS tagging‏ (ليكون إما اسا أو Ss‏ 
أو حرقًا). يمكننا أن نبني خوارزمية kg pa‏ عبر إعطائها مجموعة تدريبية (مثلا: [pU‏ 
فعل صالح/ اسم على/ حرف السرير/ اسم...) ومجموعة أخرى لتقييم الخوارزمية 
(مثلا: أتى/ فعل خالد/ اسم من/ حرف السوق/ اسم..). لاحظ أننا نفترض أن كلا 
المجموعتين Gl‏ من نفس المصدر ولم| إذن نفس الخصائص التوزيعية (عدد متقارب 
لعدد الأسماء نفس اللغة» ... إلخ). فلو افترضنا أن الخوارزمية بنت النموذج التالي 
(بعد النظر إلى مجموعة التدريب): إذا كانت الكلمة تبدأ بحرف النون فإنها فعل» وإذا 
كانت تبدأ بحرف العين فإغها حرف» وما عداهما فهو اسم. سيصبح ناتج الخوارزمية 
٠‏ عند قياسها على المجموعة التدريبية» ولكن /5٠‏ في المجموعة التقييمية. ولذا 
ستحاول الخوارزمية تطوير عملهاء ربما عبر الذهاب إلى الحرف التالي» أو بأخذ أول 
حرفين بالاعتبار أو غير ذلك من الطرق. 

يعيب تعلم الآلة الموجه حاجته إلى أمثلة للتدريب أي إلى «تعليم» أو «توسيم» 
البيانات annotation‏ التي عادة ما تكون مجهدة ومكلفة ماديًا. ولكن بالمقابل» فإن 
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الخوارزميات الموجهة عادة ما تكون أفضل أداءً من نظيرتها الغير موجهة والتي لا 
تتطلب تحديد البيانات المطلوبة(2009 .(Albared, Omar, & Ab Aziz,‏ 

عادة ما يكون LAE‏ الكلمة عبر بناء نموذج موجه تصنيفي Classification‏ 
Problem‏ أي أن الهدف الأساسي للنموذج هو القدرة على تحديد صنف معين بين 
عدة أصناف معروفة ومحددة سلفًا. وأحد أشهر النماذج وأكثرها نفعًا هو تصنيف قسم 
الكلمة JES POS tag‏ السابق. إلا أن التصنيف -حتى وإن كان معياريًا- فإنه 
من صنع الإنسان وبناء على خبرته اللغوية ولذا فهو أحيانًا يفشل في الحالات الحدية 
borderline cases‏ . ولذا فإن الباحثين يختلفون اختلاقًا كبيرًا في تحديد الأصناف à‏ 
أقسام الكلمة. فعند سيبويه» أن الكلمة اسم كفرس وحائطء أو فعل يدل على الحدث 
أو ما عدا ذلك وسماه الحرف. ولكن كثيراً من الباحثين اللغويين لم يرتأ هذا التقسيم 
(كتهام حسان - رحمه الله- وتلميذه) وجعلها سبعة أقسام بناء على المبنى والمعنى: الاسم 
والفعل» والضميرء والأداة» والصفة» والخالفة» والظرف. وقد أورد بعض الحالات 
الحدية» مثل اسم الفاعل (الذي يعمل عمل الفعل «functional morphology‏ وله 
T‏ الاسم وصفاته (form morphology‏ (الساقي» 4V0‏ \( 

وعند بناء النموذج الموجه التصنيفي للغة ماء فإن النموذج عادة ما يأخذ التسلسل 
بين المدخلات في الاعتبار. ففى المثال السابق» يمكننا اعتبار التسلسل (مثال: «كل 
ما يلي الحرف فهو اسم» أو eb‏ يكون في بداية الجملة») ليزيد من دقة النموذج 
المستخرج. هذه الخاصية موجودة عادة في الخوارزميات التي تأخذ الوقت بالاعتبارء 
مثل تحويل الصوت إلى كلام» فليس من المنطقي اعتبار كل ثانية من الصوت جزءا 
مستقلا دون الأخذ بالاعتبار ما سبق من الثواني. وبهذا أصبحت المشكلة محددة أكثر 
ويمكننا تسميتها: الخوارزميات الموجهة التصنيفية لسلاسل البيانات. 

هذه الخوارزميات يمكن تطبيقها على كثير من المهام اللغوية التي تتدرج من 
المستوى الصو phonology‏ (أو الكتابي «(orthography‏ الصرفي «morphology‏ 
«syntax, sal‏ وحتى الد لالي561221612. ففي المستوى الكتابي» يمكننا بناء نموذج 
موجه تصنيفي لتشكيل الكلمة. وتكون سلاسل البيانات فيه هي الحروف (وأماكن 
المسافات)» والأصناف هي علامات التشكيل. وتكون مجموع البيانات التدريبية 
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والتقييمية مأخوذة من ذخيرة لغوية مشكلة بالكامل. وكذلك في المستوى الكتابي- 
الصرفي» كالتعرف على أجزاء الكلمة من سوابق ولواحق. يمكننا كذلك تصنيف كل 
حرف في الكلمة إلى سابق أو أصل أو لاحق. وفي المستوى الصرفي يمكننا كما أسلفنا 
استخراج قسم الكلمة أو الخصائص الصرفية كالعدد والجنس والإسناد (للمخاطب 
أو للمتكلم أو للغائب) وغيرها من الخصائص. وهنا قد تكون سلاسل البيانات هي 
الكلمات نفسها أو أجزاء الكلمة المستخرجة سابقا. وكذلك في المستوى الإعرابي في 
بناء شجرة الإعراب الإسنادية cTransition- based Dependency Parsing Tree‏ 
يمكننا بناء الشجرة عبر بناء نموذج يأخذ كلمات الجملة كلمة كلمة (أو جزءًا جزءًا) من 
اليمين إلى اليسار» ثم يقرر في كل عملية إما أن يسند الكلمة إلى اليسار «reduce right‏ 
أو إلى اليمين creduce left‏ أو أن يأخذ الكلمة التالية „shift‏ 


كا يقول المثل الإنجليزي: «العفريت في التفاصيل». على الرغم من أن بناء نموذج 
تصنيفي موجه (مع افتراض وجود بيانات موسومة للتدريب) سهل نسبيّاء إلا أن 
الحصول على دقة عالية تتطلب الدخول بشكل أكبر في التفاصيل. فمثلاء تختلف 
الخوارزميات المستخدمة في التصنيف اختلافا كبيرّاء ولابد من معرفة الخوارزمية 
الأنسب بناء على الاحتياج. وكذلك» لابد من دراسة الخصائص المستخدمة في 
التصنيف بحرصء JUL‏ السابق في تصنيف أقسام الكلمة أخذ الحرف الأول كخاصية 
مناسبة للتصنيف» ولكنها كا نعرف ليست الخيار الأفضلء وذلك لأنها محدودة النظر 
على مجموعة التدريب وضعيفة في تعميم مجموعة التدريب للأمثلة الحقيقية الواقعية. 

فمثلاء هل المراد من الخوارزمية التصنيفية أن تكون 1-4 discriminative) à‏ 
el (model‏ توليدية S(generative model)‏ الناذج التمييزية (مثل خوارزمية SVM‏ 
والشبكات العصبية) تستخرج الاحتمال الشرطي للصنف بناء على البيانات المعطاة 
(5)614» ولكن الناذج التوليدية (مثل نموذج ماركوف (Hidden Markov Model‏ 
تستخرج احتمالات الصنف والبيانات ep (e, d)‏ أي تبني نموذجًا لكيفية توليد البيانات 
والأصناف ثم تصنف البيانات الجديدة لاحقا بناء على نمذجتها للبيانات والأصناف. 
تتميز النماذج التمييزية بأنها أعلى دقة وأسرع تدريبًا وأسهل في دمج خصائص مختلفة» 
ولكنها في المقابل تحتاج إلى بيانات أكثر ولا تستطيع توليد بيانات شبيهة (أي لا يمكنها 
توليد كلمة شبيهة ely‏ على مجموعة من الخصائص )(2002 (Ng & Jordan,‏ 
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كا أن الخوارزميات نفسها تختلف في أدائها. فعند تصنيف سلاسل البيانات» LY‏ 
من اختيار خوارزمية تأخذ بالاعتبار التسلسل مثل الشبكات العصبية التكرارية (مقابل 
الشبكات العصبية الأصلية). كا أن طريقة الربط بين النماذج المختلفة للكلمة (مثل 
التجزئة وتوسيم قسم الكلام) مؤثر على النتيجة. فمن البديبي» أن كل مهمة لاحقة 
تعتمد على نتائج المهمة السابقة» نما يؤدي إلى أن الأخطاء المولدة في المهام السابقة ستؤثر 
سلبًا على المهام اللاحقة. ولهذا السبب عمد بعض الباحثين إلى بناء eX‏ تصنف عمليتين 
في الآن ذاته )2001 (Kudo & Matsumoto,‏ الذي أثبت نجاعته في نمذجة الكلمة 
العربية تحديدًا )2015 CAlgahtani & McNaught,‏ . وني السنوات الأخيرة» انتشر 
مفهوم النموذج المتكامل End-to-end model‏ بفضل التقدم à‏ مجال التعلم العميق في 
الشبكات العصبية» والذي يتيح تدريب مجموعة ناذج مختلفة للكلمة (مع إمكانية قياس 
دقة كل نموذج بشكل مستقل). هذا المفهوم أثبت مثلا أن تعلم الآلة للشجرة الإعرابية 
مفيد في زيادة دقة تصنيف قسم الكلام )2015 (Zhang, Li, Barzilay, & Darwish,‏ 

بالإضافة إلى اختيار الخوارزمية الأنسبء فإن البيانات نفسها واستخراج الخصائص 
منها تلعب دورًا كبيرًا في دقة النمذجة. ومن أشهر مصادر البيانات لتعلم الآلة النمط 
اللغوي: البنوك الإعرابية الشجرية 776603718؛ وهي تحتوي على كم كبير من 
التوسييات على مستوى الكلمة: معجميًا (أصل الكلمة)» وصرفيًا (قسم الكلمة 
والخصائص الصرفية بالإضافة إلى بيان اللواصق وأجزاء الكلمة)» C e] s‏ (العلاقات 
بين الكلمات أو تركيبة الجملة). 

أشهر البنوك الإعرابية البنك الشجري العربي من بنسلفينيا Maamouri) (PATB)‏ 
Bies, 2004‏ &)» الذي يحتوي على نصوص إخبارية L)‏ يقارب vo*‏ آلف كلمة) 
باللغة العربية المعاصرة مجزأة ومسومة بتشكيل الكلمة وأصل الكلمة (تحديدًا المدخل 
المعجمي (Lemma‏ وقسم الكلمة والخصائص الصرفية طبقا لمجموعة أصناف تيم 
بكولتر بالإضافة إلى شجرة الإعراب لكل (contingency treebank) ile‏ ا أن 
هناك مصادر أخرى مثل تلك المتاحات ضمن موقع شجرات الإعراب OA‏ 
وجدول ١‏ يسرد أشهر البيانات المتاحة الموسومة. 


1- http://universaldepdencies.com 
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الاسم متاح الأصناف عدد | نوع النص مرجع 
الكلمات 
جامعة الإمام | لا تجريء النص | VV‏ آلف ٠‏ قرآني (Elhadj, Al-‏ 
دول توسيمه Sughaiyer,‏ 
Khorsi, &‏ 
Alansari, 2010)‏ 
لم نعم أصنافه الخاصة ٠‏ ألف قرآني )2011 (Sawalha,‏ 
الذخيرة عند بنسلفينيا ۷ ألف | قرآن» (Mohamed, us‏ 
الدينية الطلب والفلسفة (2012 
الذخيرة نعم | أصنافه الخاصة | (Dukes, Atwell, già | vy‏ 
القرآنية )2013 Habash,‏ & 
المصحف نعم | أصنفه الخاصة | vv‏ آلف | قرآني & (Zeroual‏ 
He)‏ الخليل) )2016 Lakhouaja,‏ 
ذخيرة عند | أصنافه الخاصة | 5٠‏ ألف أخبار )2001 (Khoja,‏ 
LaL‏ باشتراك | الشجري | vos‏ أخبار (Maamouri, Bies,‏ 
مدفوع من بنسلفينيا ألف Buckwalter, Jin,‏ 
( محلل بكولتر) )2005 Mekki,‏ & 
براغ متاح أصنافه 1۳ أخبار (Hajic, Smrz,‏ 
الخاصة( محلل ألف Zemánek,‏ 
إكسير) & Snaidauf,‏ 
others, 2004)‏ 
كاتب باشتراك | أصنافه الخاصة | مليون* | أخبار | (Habash & Roth,‏ 
(كولومبيا) | مدفوع قليلة (2009 
نيملار مدفوع أصنافه الخاصة (Yaseen et al., Nue ED‏ 
ألف (2006 
قار نعم کاتب ٦‏ آلف | ويكيبيديا (Schneider,‏ 
Mohit, Oflazer, &‏ 
Smith, 2012)‏ 


جدول :١‏ قائمة بالبيانات العربية الموسومة بالتحليل اللغوى. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EN‏ ^ 


كل هذه البيانات وغيرها (خصوصًا البنك (PATB‏ مستخدمة بكثرة في تدريب 
خوارزميات متنوعة لنمذجة اللغة ومن أشهرها المحللات الصرفية. ولأن تركيز هذه 
الورقة على الخوارزميات لا البيانات (التي هي خارج إطار هذا البحث)» فإنه يكفينا أن 
نبين اختلافات ملحوظة يجب الانتباه ها عند تطوير أو أخذ خوارزمية بعين الاعتبار: 


* البيانات ليست كلها متاحة للتحميل» فبعضها مجان ومفتوح» وبعضها يمكن 
الحصول عليه مباشرة من الباحث» وبعضها لابد من اشتراك مدفوع في المؤسسة 
المانحة (مثل شجرة (PATB‏ 

* تختلف طريقة توسيم البيانات بشكل كبير جدًا. وکل اختلاف في مستوى لغوي 
أبسط يؤثر في المستويات اللاحقة. فمثلاء الاختلاف في طريقة تجزئة النص 
يؤدي إلى الاختلاف في أصناف قسم الكلمة ما يؤدي إلى الاختلاف في الشجرة 
الإعرابية. 


* سلاسل البيانات عادة ما تكون موسومة برموز تصف هذه السلاسل» لكن 
تختلف البيانات في أين يكون توسيم «جزيئات» النصوص | «token‏ فقد تكون 
على مستوى الكلماتٍ أو أجزاء منها أو حتى الحروف المكونة ها. 

* عند اعتبار الكلمات أساسًا للتوسيم» فإن تحديد الجزء الأصيل من الكلمة من 
غيره من اللواصق قد يكون مشكلا. مثل تحديد الجزء الأصيل في الكلمة: 
«معهم»» هل هو حرف الجر أو الضمير. 

* عادة ما يبنى التوسيم الصرفي في البنوك الشجرية طبقا لمحلل صرفي يسهل 
عملية التوسيم. فبدلا من أن تكون يدوية بالكامل» فإن الواسم يختار أحد 
التحليلات الصرفية المقترحة من المحلل. كما بإمكانه إضافة تحليل جديد إذا ل 
يجد مبتغاه. معرفة المحلل الصرفي وخصائصه مهمة» حيث إن تأثيره على البنك 

* لاينبغي الاعتماد على الأصناف الموجودة في البنك الشجري عند بناء محلل ما. 
ولكن يجب قَضْر الأصناف على المطلوبة فقط لتحقيق ال حدف النهائي. 


—Y4Q- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n——————————— $5‏ 


١‏ , " المحللات الصرفية 

في هذا القسم» تناقش الورقة طرقًا مستخدمة في نمذجة اللغة (وتحديدًا في المحللات 
الصرفية) ونحلل أربعة من أشهر المحللات اللغوية العربية» وهى تحديدًا: مداميراء 
أميرة» ستانفورد» وفراسة. i‏ 

المحللات الصرفية نوعان: ترميزي (حيث يقرر المحلل التحليل الصرفي الأنسب 
للكلمة» انظر أشهرها في جدول (f‏ ومعجمي (حيث يسرد المحلل التحليلات الممكنة 
للكلمة دون الاختيار أو التفضيل انظر أشهرها في جدول (Y‏ المحللات الصرفية 
الأربعة هي من الصنف الأول» وتجتمع كلها ني أن التدريب قد تم على البنك الشجري 
من بنسلفينيا وعلى تصغير عدد الأصناف المستخدمة في البنك. ولكن كل محلل يختلف 
في تصميمه وطريقة نمذجة الكلمة والخصائص التي يقدمها ويتنبأ مهاء انظر جدول Y‏ 


AraComLex 


Elixir 


إكسير 


AlKhalil 


Buckwalter 


pm 


الخاصية 


أراكوملكس 


صنف الكلمة 


نوع الفعل 


الإسناد 


الجنس 


R R RR R 


RARR ARR 


RR. R R. 


RRR R R R R 


1 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
١١١١١ ©2111‏ 


AraComLex Elixir AlKhalil Buckwalter os 
£ ١ صية‎ 
بكولتر الخليل إكسير أراكوملكس‎ 
0 التشكيا نعم نعم دا‎ 
- E - p إنجليزي‎ 
ES em = التجزي لخم‎ 
نوع التوسيم | مستوى الكلمة | مستوى الكلمة مستوى الجزء | مستوى الكلمة‎ 
(Boudchiche, 
Mazroul, 
(Attia, 2006) | (Smrz, 2007) Bebah, k i 5-6 
Lakhouaja, & 
Boudlal, 2016) 


جدول ؟: خصائص أشهر المحللات الصرفية العربية المعجمية (التي لا تزيل الغموض). 

يتميز محلل مداميرا في أن تحليله الصرفي يعتمد على محلل صرفي معجمي مضمَّن 
في داخله (نسخة مطورة من المحلل المشهور بكولتر). ففي بداية عمله» يقوم مداميرا 
بتوقع نتائج التصنيفات لأقسام الكلمة ومجموعة من الخصائص الصرفية» ثم يقوم 
بعدها بمقارنة النتائج مع نتائج المحلل المضمّن واختيار الأنسب. كا يتميز بأن العملية 
التصنيفية تتم على مستوى الكلمة لا على مستوى الجزء» فلا يوجد تجزيء للكلمة قبل 
التحليل» ولكن نتائج التحليل تعيّن اللواصق للكلمة (تفترض أن للكلمة أربع سوابق» 
ولاحقة واحدة بحد أقصى). اعتماد مداميرا على المحلل المضمّن مكنه من رفع مستوى 
النتائج» لكن هذا محدود في حال تعرّف المحلل المضمن على الكلمة. كا أن اعتماده على 
التحليل على مستوى الكلمة قلل من تأثير الأخطاء المتولدة عند التجزئة على مرحلة 
التوسيم الصرفي. 

محلل أميرا اختار طريقة التجزئة والتوسيم في آن واحد وذلك على عبر تجزئة الكلمة 
إلى حروف ثم تعيين مكان ووسم الحرف ثم تجميع الكلمة بناء على مكان أحرفها. فمثلا 
الكلمة فَهُمُ ستصبح فَ/ عطف_سابق١‏ ه/ ضمير_أساس fem‏ ضمير_أساس. أما 
محللا ستانفورد وفراسة فإ اعتمدا النظام الخطي حيث التجزئة تسبق التوسيم مع 
v‏ فراسة باعتماده على كثير من المعاجم والفهارس لتيسير عملية التحليل. 


res 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n———————————————‏ 


التعريف 
إعراب الفعل 
إعراب الاسم 


| الاسم مداميرا ستانفورد أميرة iul‏ | 
صنف الكلمة نعم نعم نعم نعم 
نوع الفعل نعم | نعم إلاللمجهول | نعم : 
المخاطب والمتكلم والغائب نعم - نعم - 
الجنس نعم s‏ نعم | نعم للأسماء 
العدد نعم | مفرد وجمع فقط | نعم نعم للأسماء 
المعلوم والمجهول نعم نعم نعم s‏ 
E E‏ 
نعم 
نعم 


جدول SY‏ خصائص أشهر المحللات الصرفية المرمزة 


4 - نمذجة الكلمة توزيعيا 

نمذجة الكلمة لغويا كا في الفصول الماضية» أنتجت لنا قي لغوية معينة لكل 
خاصية من الخصائص اللغوية للكلمة. فمثلاء أصبحت كلمة «ضارب» في الجملة: 
اكان ضارب الناس «Lil‏ ممدلة بالشكل التالى: 

<الوزن=فاعل» قسم_الكلمة=اسم» التشكيل-ضارب الحالة=مرفوع» 
العدد=مفرد» وغيرها> 

هذه النمذجة مبنية على تصنيف الإنسان والذي تطور عبر دراسة اللغة عبر العصور. 
في هذا القسم سندرس طريقة مختلفة لنمذجة الكلمة» تتجاوز التمثيل اللغوي» إلى 
استخراج تمثيل مبني على نصوص اللغة. 

يعيب التمثيل اللغوي للكلمة أنه يعتبر تمثيلا تصنيفيا لا تمثيلا رقميا. فمثلاء لا 
يمكننا اعتبار المرفوع رقا كالواحد والمنصوب كالاثنين والمجرور كالثلاثة» وذلك OY‏ 
ذلك يقتضي أن هناك ترتيبًا معيتا بين القيم الثلاث. والتصنيف لا يقتضي أي ترتيب 
بين الأصناف (رغم أن الأصناف عادة ليست بنفس التباعد). هذا الأمر ينطبق على 
مفردات اللغة نفسها. فلا يمكننا تحويل كلمات اللغة إلى أرقام مباشرة ولحل هذا الأمرء 


-\\ Y- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o ©2131‏ ^ 


طور الباحثون طرقاً عديدة لتمثيل الكلمة كمتجه رقمي numerical vector‏ ما يميز 
المتجه الرقمى (كالأرقام) عن الصنف. أنه c‏ نا القيام بعدد من العمليات الرياضية 


٤ ١‏ التمثيل الكلاسيكى للكلمة 

الخيار الأول هو تمثيل كل كلمة بمتجه طويل (طوله عدد مفردات اللغة) ذو قيم 
كلها أصفار ما عدا عمود واحد. يمكننا تسمية هذا المتجه بالمتجه ذو الرقم الواحد 
.one-hot encoding‏ ولنضرب مثالا عل هذا المتجه: لو افترضنا أن عدد كلات اللغة 
ثلاث كلمات: «فرس» حائط» حصان» ob‏ الكلمة الأولى تمثل بالمتجه XY, t, ٠<‏ 
ull;‏ <۱ » , *> وهكذا. 

يعيب هذا الخيار أنه يفترض مسافة واحدة بين أي كلمتين في اللغة. ولكن الحقيقة 
هى أن الفرس أقرب إلى الحصان منه إلى الحائط. بإمكاننا للحصول على مثل هذا 
التمثيل » الاستناد إلى نظريات «دلالات التو زيع « .distributional semantics‏ هذه 
النظرية تستند إلى القول بأن العناصر اللغوية ذات التوزيع نفسه لها المعنى نفسه. 

أحد الأمثلة على التمثيل التوزیعی» التمثيل الكلاسيكى المبنى على توارد ALII‏ 
.Co-occurrence‏ فإذا كان un‏ والحصان يشتركان mI à‏ المتواردة معهماء 
فإن لهم المعنى نفسه. فمثلاء قد نجد أن كلاهما يردان مع الكلمات: حذوة» سرج» إلخ 
فنستدل أن لما معنى متقاريًا. 

وني التمثيل التوزيعي الكلاسيكي» يتم بناء مصفوفة مربعة طوها وعرضها عدد 
مفردات اللغة. وفي كل خانة يتم تعداد عدد المرات التي وردت فيها كلمة ما في سياق 
كلمة أخرى. وبذلك أصبح تمثيل كل كلمة هو الصف المستخرج من هذه المصفوفة. 
الجدول أدناه مثال على المصفوفة للمثال السابق. 


eive 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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y ١ i فرس‎ 
0 0 ١ حائط‎ 
0 ' Y حصان‎ 


جدول ٤‏ : مثال على مصفوفة توارد الكلمات. الخانة الرقمية في الزاوية العليا البسرى تعنى أن كلمة 
حصان وردت Ol po‏ في سياق كلمة قرس Jal‏ المتجهى لكلمة ua‏ هو <۲ رآ ر٠‏ 
ما يعيب مصفوفة توارد الكلمات هو حجمها الكبير» خصوصًا في اللغات الغنية 
صرفيّاء وفقرها من ناحية تمثيل الكلمة لتباعد المفردات csparseness‏ فكل أشكال 
الكلمات تدخل في عدد مفردات اللغة والتوارد بين هذه الأشكال أكثر الأحيان معدوم. 
وهذا جعلها مكلفة وغير عملية عند رین كثير من اللنوارؤميات. 


Y‏ و £ مضامين الكلمة 

doo s‏ ظهر (EAE‏ حديث للكلمة o‏ بمضامين الكلمة Word embedding‏ يتميز 
بكونه عملي وسريع مع الحفاظ على تمثيل دلالي جيد للكلمة» وأشهر أداة تنتج هذه المضامين 
هى .(Mikolov, Sutskever, Chen, Corrado, & Dean, 2013) word2vec‏ وهذا 
التمثيل يعتمد على خوارزمية الذكاء الاصطناعى: الشبكات العصبية. 

الناتج النهائي من خوارزميات مضامين | لكلمة هو تمثيل كل كلمة من كلات اللغة 
بمتجه رقمي طوله محدد (عادة ما يكون 7٠٠١‏ عنصر رقمي) بحيث تكون الكلمات 
ذات المعاني المتقاربة ذات ضرب نقطي للمتجهين يقترب من الواحد (أي أن الزاوية 
بين المتجهين تساوي أو تقترب من الصفر). 

هذا الطريقة في تسهيل التعامل مع الكلمات عبر تحويلها إلى متجهات رقمية يمكن 
استخدامها كذلك في الأصناف اللغوية (أو أية قيم تصنيفية (categorical data‏ 
(وفي هذه الحالة تسمى الطريقة بناء المتجه الكثيف). فالمشهور هو استخدام المتجه 
ذو الرقم الواحد one-hot encoding‏ هذه الأنواع من البيانات. وهذا التمثيل لا 
استخدام المتجه الكثيف (أو المضامين) سبب سرعة أكبر في إعراب الكلمات syntactic‏ 


-\\é- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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parsing‏ كما نشر أحد الباحثين استخداما لمضامين قسم الكلمة (بدلا من قسم الكلمة 
نفسه) من أجل نمذجة الجمل والفقرات(2016 (Yu,‏ 

٠,۳‏ إنشاء مضامين الكلمة 

الخوارزمية word2vec‏ تتكون من عدة مراحل. في المرحلة الأولى» تجرد الخوارزمية 
كل المفردات الواردة في الذخيرة اللغوية. ثم تستخرج سياقات كل كلمة من نافذة محددة 
(مثلا الكلمتين المجاورتين للكلمة) فتبني منها جدولا يبين توارد الكلمات» كالجدول 


أدناه. 
| الكلمة المعنية كلمة السياق التوارد | 
حائط البراق Y‏ 
حائط ١ bsy‏ 
الإسراء بقصة ١‏ 
الإسراء والمعراج ١‏ 


جدول 19 استخراج سياقات في العبارة: «بالنسبة للمسلمين» يرتبط حائط البراق بقصة الإسراء 
والمعراج» مع اعتبار السياق الكلمتين المجاورتين للكلمة. 

ثم تقوم الخوارزمية ببناء مصفوفتين: مصفوفة مضامين الكلمة المعنية (عادة الكلمة 
الوسطى)» ومصفوفة مضامين كلمات السياق. كلا المصفوفتين هما طول بعدد مفردات 
اللغة» وعرض بحسب طول المتجه النهائى المطلوب (عادة .)٠١‏ كلا المصفوفتين 
ينشآن بأرقام عشوائية ابتدائية. 

يتم التدريب عن طريق أخذ الكلمات كلمة كلمة. ولكل كلمة ينشأ جدول السياقات 
مع إضافة سياقات خاطئة سلبية negative sampling‏ ذات توارد صفري. 

هناك نمطان للخوارزمية: النمط الأول رزمة الكلمات continous bag of words‏ 
(CBOW)‏ وما يتنبأ بالكلمة المعنية من سياقهاء والنمط الثاني skipgram‏ يحاول أن 
يتنبأ بالسياق من كلمة معينة. 


-١١6ه‎ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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لو أخذنا النمط الثاني في الاعتبار» فإن الخوارزمية ستقوم بعد ذلك بضرب نقطي 
بين مضمون الكلمة المعنية مع مضامين كلمات السياق (آي أنها تحسب مقدار الزاوية 
بين هذه الكلمات). ومن ثم يتم حساب الخطأ في الناتج من الضرب (يجب أن يساوي 
واحدًا للسياقات الإيجابية وصفرًا للسياقات السلبية). بعد ذلك» ستقوم الخوارزمية 
بتعديل المضامين في كلا المصفوفتين لتقليل هذا الخطأ. 

تستمر المضامين في التحسن (us‏ تعاد هذه العملية لكل كلمة في الذخيرة اللغوية» 
وأحيانا تعاد لعدة دورات على كامل الذخيرة epochs‏ الناتج النهائي من الخوارزمية 
هي مصفوفة الكلمة المعنية وفيها تمثيل لكل كلمة بشكل متجه رقمي. 

٤‏ و٤‏ تقييم مضامين الكلمة 

بمجرد إنشاء هذه المتجهات يمكننا استخراج أقرب الكلمات لكلمة ما وفحص 
جودة التمثيل. وهناك طرق علمية لتقييم هذا التمثيل الرقمي للكلمة منها التناظر 
اللفظي» الاختيار الأمثل للكلمة ضمن سياق» والقاموس العكسي. 

في التناظر اللفظي» يعطى الحاسب كلمتين متناظرتين (دون تحديد سبب التناظر) ثم 
يطلب منه الكلمة المناظرة لكلمة ثالثة. وكمثال» يعطى الكلمتان المتضادتان حار:بارد» 
ويطلب منه المناظر لكلمة أعلى (أسفل). هذه الطريقة تقيس جودة تمثيل العلاقات بين 
الكلمات ويتم تنفيذها عبر عمليات رياضية مثل الجمع والطرح. 

هذه الخوارزمية عدة عوامل تؤثر في عملية التدريب» منها: النمط المستخدم وطول 
نافذة الكلمات. النمط الأول أسرع تمريتا وعادة ما يكون للذخيرة اللغوية الطويلة 
ويمثل الكلمات المتكررة بشكل أفضل. أما النمط الثاني فيتميز بأنه يمثل الكلمات 
النادرة بشكل أفضل. طول النافذة القصير عادة ما يقرب بين الكلمات القابلة للتبديل 
بين بعضها البعض» وطول النافذة الطويل عادة ما يقرب الكلمات المتعلقة ببعضها. 


٤, 0‏ تطور مضامين الكلمة 

كانت هذه الخوارزمية بمثابة الشرارة لكثير من الأبحاث التي تعالج جوانب 
القصور فيها وتطور نماذج أكثر دقة في تمثيل الكلمة. 

أحد جوانب القصور في الخوارزمية أا لا تأخذ الترتيب في كلمات السياق ولا 
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تأخذ تركيبة الكلمة بالاعتبار عند التدريب. وهاتان الخاصيتان تحديدًا مهمتان في اللغة 
العربية» حيث إن وزن الكلمة يلعب دورًا مهًا في معنى الكلمة» كا أن بعض السوابق 
واللواحق مؤثرة في المعنى (مثل التاء المربوطة). 

من العيوب المشتهرة عن الخوارزمية lel‏ لا تفرق بين المتشاببات اللفظية 
Yd .homographs‏ المتجه الناتج لكلمة «عين» سيكون مختلاء وذلك لأن الكلمة ها 
عدة معانٍ تأت في سياقات متباينة. ففي آلية عمل الخوارزمية» تقوم الخوارزمية بتصحيح 
معامل الخطأ كل مرة ترد فيها الكلمة بشيء مناسب للكلمات المصاحبة (في السياق). 
ولكن الكلمة لها سياقات متباينة نما يؤدي إلى إنتاج متجه رقمي وسطي (حسب عدد 
مرات تكرار كل معنى). 

ومن العيوب Léi‏ محدودية الخوارزمية على الكلمات التى وردت في الذخيرة التى 
كم القدريب عليها. a‏ ليست Gesta, A‏ البو بالات التي 1 ترد سايقًا 
في الذخيرة. 

من أجل ذلك قام باحثون بتطوير عدة ناذج معدلة على الصيغة الأساسية. من 
ذلك حزمة fastText‏ التي طورها باحثون في شركة فيسبوك, والتي لا تكتفي بتمثيل 
الكلمات بشكلها النهائى ولكن تأخذ أبعاض الكلمة (subword)‏ بعين الاعتبار. 
فتمثيل الكلمة الناتج عن هذه الحزمة هو مبني على كل أبعاضها الكتابية سواء الحروف 
أو الأبعاض الثنائية bigram‏ أو الثلاثية أو حتى أكثر من ذلك. فمثلاء التمثيل الخاص 
بكلمة «خيل» سيتكون من مجموع تمثيل كل حرف من حروفها الثلاثة» بالإضافة إلى 
تمثيل rax‏ «خي» و «يل». هذه الحزمة أفضل من سابقتها كونها تأخذ الصرف في 
الاعتبار (واللغة العربية غنية صرفيًا)» ويمكنها التنبؤ بكلمات لم ترد من قبل (واللغة 
العربية كثيرة الاشتقاقات والالتصاقات). 

لكن التطور في هذا المجال لم يتوقف. فقد تنبه الباحثون إلى أن الخنوارزمية لا تأخذ 
السياق بالاعتبار. نعم» هي تولي الكلمات المصاحبة للكلمة المعنية اهتماماء لكن هذه 
الكلمات استبعدت من السياق الكامل للفقرة أو حتى المقالة. وعالجت هذا القصور 
خوارزميات تستخدم طبقات ذات خصائص تذكريّة لسلاسل البيانات وأشهرها طبقة 
الذاكرة قصيرة المدى المطولة .LSTM‏ ىا طورت أكثر عبر خاصية التركيز attention‏ 
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والتى Gal Lass‏ أكبر للكليات ذات التأثير الأكبر عند التنبؤ بالكلمة التالية. فمثلا 
في الجملة التالية: «ويحب الأطفال اللون الأخضر والأحمر و ». فإن التركيز من أجل 
التنبؤ بالكلمة الناقصة سيكون منصبا أكثر على كلمتي «الأخضر» و«والأحمر» كوا 
مؤثران على الاختيار. وذاع صيت الناذج المستخرجة بہذه الطرق (مثل BERT c3Q‏ 
Radford et al.,) GPT-2; (Devlin, Chang, Lee, & Toutanova, 2018)‏ 
9) التي أظهرت جودتها في توليد فقرات كاملة بشكل آلي متوافقة بشكل كبير مع 
السياق لفقرة مكتوبة معطاة. 

5و £ تطبيقات مضامين الكلمة 

dol‏ هذا التمثيل الرقمى للكلمات مفيد في عدد كبير من التطبيقات اللاحقة 
(downstream tasks)‏ . نكا tatu‏ هو مستخدم الآن à‏ كثير من لوحات المفاتيح 
الذكية للتنبؤ بالكلمة التالية. كا أنه مفيد حتى في تصنيف الخصائص اللغوية بالنمط 
الأول (مثل تصنيف قسم الكلام). 

وبعد تطور خوارزميات استخراج مضامين الكلمة (حتى أنها سميت بنمذجة اللغة 
i le! | Language Modeling‏ تعد مقتصرة على الكلمة فقط (Ql s‏ تعتبر سياق الجمل 
والفقرات)» أصبحت شبه أساسية وأولية لكثير من مهام مجال معالجة اللغات الطبيعية. 
فمثلاء في النموذج BERT‏ رفع استخدام مضامين الكلمة السياقية من جودة إحدى 
عشرة مهمة من مهام معالحة اللغات الطبيعية. وصار على المستخدم الذي يريد تحليل 
المشاعر في نص معين أن لا يبدأ من الصفر» OL s‏ يبدأ من نموذج لمضامين الكلمات (قد 
سبق تدريبه) ثم يبني نموذجه لتحليل المشاعر فوقه بكل سهولة. 


ه- خاتمة 

تطورت خوارزميات الذكاء الاصطناعي المستخدمة لتحليل ونمذجة الكلمة تطورا 
كبيرا في السنوات الأخيرة» والتى تعد خطوة أساسية مهمة لكثير من تطبيقات معالحة 
اللغة الطبيعية. فلا شك أن معرفة المعاني والمباني لكات (اللبنات الأساسية للكلام) 
ضروري من أجل فهم الكلام أو إنتاجه آليا. ولذا تعددت الطرق التي تفسر وتمثل 
الكلمات وتبني جسرا ليسهل فهمه من قبل الحاسب الآلي الذي لغته لا تتجاوز الأرقام. 
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صنفت هذه الورقة الأبحاث في هذا المجال إلى نمطين: النمط اللغوي المبني على 
الدراسات اللغوية للكلمة مثل التحليل الصرفي والنمط التوزيعي الذي يستنتج المعاني 
للكلمة بناء على سياقاتها وتوزيعها في النص. 

شرحت هذه الورقة كثيرا من الخوارزميات المستخدمة في تحليل ونمذجة الكلمة في 
كلا النمطين» مع OUS‏ جوانب القصور عند بعضها وخصوصا عند تطبيقها لنمذجة 
الكلمة العربية. كما قارنت بين النمطين وبينت آنا مكملان لبعضهاء إذ يمكن 
الاستفادة من النمط التوزيعي كخطوة أولى لتحليل كثير من المهام في النمط اللغوي. 

بقي أن نختم بأن جزءاً كبيراً من التطور في النمط التوزيعي منصبٌ بشكل كبير 
على اللغة الإنجليزية» وكثير من الناذج المستخرجة هي لذات اللغة» والأبحاث في 
اللغة العربية متأخرة في تجربة مثل هذه الخوارزميات وقياس جودتها على اللغة العربية 
NS:‏ سيك إن للغة العربية تشاكليها الخاضة. فقا تشكيل الكلمة هی ميزة شيه 
قريدة اله ارا وعدم الل لبس عط E‏ 
وتقديري. ويعمد كثير من الباحثين للغة العربية إلى إزالته منعا للزيادة في تباعد الكلمات 
95 ولكن هذه الإزالة تزيد من غموض الكلمة (والتى بسببها يعمد الكاتب 
as‏ إلى كتابة التشكيل أو الشدة). وعليه فيجب البحث عن إمكانية بناء خوارزمية ذكية 
لبناء المضامين تستطيع تمييز الحركات وتستفيد منها دون أن تؤثر على تباعد الكلمات. 
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ملخص الفصل 

يُشكل الغموض اللغوي بكافة مستوياته ودرجاته تحديا مستمراً لكثير من مهام 
المعالجة الآلية للغات الطبيعية؛ ومن هنا بدأ الاهتمام مبكرا بدراسة عدد من الظواهر 
اللغوية التي تسهم فيه بشكل واضح.ء ومن أهمها: ظاهرة التراكيب الاصطلاحية 
والمتلازمات اللفظية» والتى لفتت منذ وقت مبكر انتباه عدد كبير من الباحثين والمهتمين 
فق تخصضات نة لخوية وحاسوية متحددة. وق هذا الفصل تقدم Lal nal‏ موجراً 
لجهود الباحثين في هذا الميدان» من خلال تتبعنا لأهم الدراسات التي اهتمت بالمعالحة 
الحاسوبية هذه الظاهرة اللغوية» وسيبدأ الفصل بمقدمة تبين أهمية دراسة هذه الظاهرة 
وأهم مجالات البحث فيهاء ثم يقدم القسم الثاني من هذا الفصل إطاراً نظرياً لدراسة 
هذه الظاهرة ويشتمل على التعريف العملي» وذكر أهم الخصائص اللغوية المميزة لها في 
اللغة العربية» بالإضافة إلى استعراض أهم التصنيفات المستعملة للتراكيب الاصطلاحية 
في مستويات لغوية متعددة. وفي القسم الثالث نقدم استعراضاً لأهم تطبيقات المعالجة 
الحاسوبية هذه الظاهرة والتى تلخص المشاكل البحثية الرئيسة التى تتضمن التراكيب 
الاصطلاحية في أدبيات معالجة اللغات» ويسلط هذا القسم الضوء بشكل خاص على 
مهمتي الاستخراج والتعرف الآلي» وما يتعلق بالمصادر اللغوية الحاسوبية للتراكيب 
الاصطلاحية وتطبيقات معالجة اللغات» وأخيراً نختم هذا الفصل بعرض موجز لأبرز 
التحديات التى لا تزال تشكل عقبة في سبيل الوصول إلى درجات عالية من الدقة في 
مهام المعالجة الحاسوبية المختلفة هذه الظاهرة اللغوية المعقدة. 


د. أيمن بن أحمد الغامدي 

أستاذ اللسانيات الحاسوبية المساعد في معهد اللغة العربية في جامعة آم القرى» حاصل على 
درجة البكالوريوس في اللغة العربية وآداهاء والدبلوم العالي في التربية والتعليم وطرق التدريس 
في جامعة الطائف» ودرجة الماجستير في اللسانيات التطبيقية في جامعة Essex‏ ودرجة الدكتوراه 
في اللسانيات الحاسوبية والذكاء الاصطناعي في قسم الحاسب JYI‏ في جامعة Leeds‏ في المملكة 
المتحدة, له عدد من الأبحاث المنشورة في اللسانيات التطبيقية والحاسوبية» lode geh g‏ من شهادات 
الشكر والتميز من جهات أكاديمية وخيرية واجتماعية» وله عدد من المشاركات في المؤتمرات العلمية 
المحلية والدولية» قَدَّم ومحضر العديد من الدورات والورش a all‏ المحلية والدولية في جالات 


(https: / /uqu.edu.sa /aamansoori) - (aamansoori@uqu.edu.sa) أكاديمية متنوعة.‎ 
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هذه الطبعة إهداء من المركز 
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١‏ -المقدمة 
تعد ظاهرة التراكيب الاصطلاحية من الظواهر اللغوية المعقدة التي شغلت كثيراً من 
الباحثين في عدد من المجالات العلمية المتصلة باللغة» كعلوم اللسانيات المتنوعة مثل: 
اللسانيات التطبيقية والنفسية» وكذلك في عدد من تخصصات الذكاء الاصطناعي» 
كاللسائيات الحاسوبية» SI REGI e dle s‏ للخات. وتحاول أغلب هذه الأبحاث 
العمل على تقديم مقترحات علمية وعملية تساعد في تقليل نسبة الغموض اللغوي 
الذي تسببه هذه الظاهرة في عدد من تطبيقات المعالجة الآلية للغات: كالترحمة الآلية» 
وتطبيقات التحليل اللغوي المختلفة: مثل التحليل الصرفي والنحوي والدلالي وغيرها. 
ويعود الاهتمام هذه الظاهرة اللغوية لعدد من الأسباب التي من أهمها النسبة الكبيرة 
التى تشكلها هذه التراكيب في اللغة» وخاصة في اللغة الشائعة التى تستعمل في الحياة 
cia‏ فت A eee ALI‏ على سيل الخال ك ام الي SUE ad 8 ill‏ 
من * (Biber et aL, 1999) Y‏ إلى أكثر من * 7.0 )2000 (Erman and Warren,‏ 
وفي المعجم الحاسوبي الإنجليزي WordNet‏ شكلت نسبة هذه التراكيب بكل أنواعها 

حوالي /5١‏ من إحمالي عدد المداخل المعجمية (1990 (Miller et al.,‏ 

Ul‏ في اللغة العربية فبالرغم من عدم وجود دراسات إحصائية أو نسب محددة لهذه 
التراكيب كما في الإنجليزية» إلا أن كثرتها تعد كذلك ظاهرة في العربية» وخاصة عند 
استقراء نتائج البحث في المدونات العربية CS TRIAL AE‏ يؤكد أهمية هذه الظاهرة في 
العربية» العناية المبكرة بها من قبل الباحثين واللغويين العرب» فقدياً ظهر هذا الاهتمام 
في مؤلفات كثيرة اهتمت بجمع أمثال العرب وحكمهم» وكذلك قصد بعض المؤلفين 
تفسير ماورد في نصوص الوحيين الكتاب والسنة من الأمثال والحكم» وهذه العناية 
المبكرة بلا شك تدل على الوعي المبكر عند علماء اللغة بالأهمية البالغة لهذا النوع من 
التراكيب في فهم اللغة رتسي مها بهاو كدلك دورها في رفع المستوى اللغوي للكتاب 
وطلاب العلم» ويوضح جدول Y‏ عددا من المصادر العربية القديمة التي اعتنت بهذا 
النوع من التراكيب. 


coast -١‏ كثير من الدراسات اللغوية المبنية على مدونات لغوية شيوع هذا النوع من التراكيب في اللغة العربية» 
ويمكن للمهتم مراجعة الدراسات التالية لمزيد من المعلومات حول هذا الموضوع: (الخولي» EVAAA‏ فايده € 
.(Alghamdi, 2018 Zaghouani, 2014; Abdou, 2011‏ 
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| الكتاب المؤلف تاريخ وفاته | 

الأمثال صحار بن عیاش اها 

الأمثال المفضل الضبي اه 

الأمثال السدوسى 6ه 

الأمثال الاسم ون نام YYY‏ 

الفاخر ابن سلمة ١ه‏ 

الأمثال أبو عكرمة الضبي ۰ھ 

ثار القلوب في المضاف والمنسوب أبو منصور الثعالبي لاه 
كتاب أفعل من كذا أبو علي Quit‏ 1ه 

شرح كتاب الأمثال البكري ۷ھ 

مجمع الأمثال الميداني ETE‏ 

أساس البلاغة الزخشري 0ه 

ما يعول عليه في المضاف والمضاف إليه P‏ ١ه‏ 


جدول :١‏ أمثلة لكتب معت عددا من أنواع التراكيب الاصطلاحية ني المصادر العربية القديمة. 


وني الدراسات اللغوية الحديثة ظهر ela VE‏ بهذه الظاهرة وما يتصل بها جليا في 
عدد كبير من الأبحاث التي تناولت هذه الظاهرة من ختلف زواياهاء فعلى سبيل «JUI‏ 
اهتم بعض الباحثين بجمع هذه التراكيب في معاجم خاصة كا في هذه الأمثلة: (أبو 
سعدء ۱۹۸۷؛ إسماعيل وآخرون» ٩۱۹۹؛‏ بشارة۲۰۰۲۰؛ ابو داوود»7١٠١٠؛‏ حافظ» 
4 كامل» Yr‏ وغيرها)» ea‏ اتجهت دراسات أخرى إلى تقديم أطر نظرية 
لدراسة هذا النوع من التراكيب كا في الأعمال التالية:(القاسمي» 191/4١؛‏ حجازي» 
؛؛ غزالة» ۱۹۹۳؛ هلیل» EA‏ ابن عمر» »)7٠١١1‏ وقدمت هذه الأبحاث 
العديد من المقترحات النظرية في| يتعلق بتعريف هذه التراكيب اللغوية» وشرح 
أنواعهاء وجمع ما يستعمل من مصطلحات مختلفة في وصفهاء بالإضافة إلى دراسة أهم 
خصائصها وتصنيفاتها في ختلف مستويات التحليل اللغوي. 

وقد أكدت بعض الدراسات اللغوية الحديثة المبنية على مدونات ضخمة تمثل اللغة 
العربية المعاصرة أن التراكيب الاصطلاحية وما يتصل بها من ظواهر لغوية مشابهة 


-YYa- 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
$1 اب سيا 


يجب أن تشكل جزءاً أساسياً في كل البرامج اللغوية التي تهدف إلى تحليل النصوص 
العربية حاسوبيا؛ وذلك لأثرها المهم في تحديد مستويات الغموض اللغوي في خرجات 
تطبيقات معالحة اللغة المختلفة(2015 CAbdou, 2011; Najar et al.,‏ . 

وإذا ما أمعنا النظر نجد كذلك أن كثيرا من الكلمات المفردة في اللغة العربية يتوقف 
فهم معانيها المختلفة على فهم معنى عدد من التراكيب المتصلة بهاء وقد تكون بعض 
معاني هذه التراكيب أكثر شيوعا من معنى الكلمة وهى مفردة» كا يظهر ذلك على سبيل 
الال ق cone als‏ و ا V‏ يمك اباب جانا d E‏ السات à All‏ 
V] iilo‏ بهم معاي عدد من الملازنات اللفظية المتصلة ياء ويمكن توضيح هذه 
الفكرة من خلال تشبيه الكلمة المفردة «عين» برأس جبل الجليد» والذي قد يظهر في 
أول وهلة صغيراً ولكنه في الواقع وعند التأمل مجرد قمة لجبل عظيم كما هو موضح في 
الشكل E‏ 


عين 


فرض عين2 عين جارية 
أصيب بعين العين بالعين 
عين اليقين جاء الرجل عينه 
أخذ بعين الاعتبار 


n 8 | 5 


شكل :١‏ صورة رمزية لقمة جبل الجليد تظهر فيها كلمة «عين» وأمثلة للتراكيب المرتبطة بها. 


Ares 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o ©2131‏ ^ 


VP‏ يؤكد أهمية دراسة هذه الظاهرة اللغوية وما يتصل اء ما توصلت إليه عدد من 
الأبحاث في علم XUI‏ العصبي والنفسي من نتائج تفيد أن المعجم اللغوي في العقل 
البشري لا يتكون من مفردات وكلمات معزولة فحسب بل يتمثل في شبكة معقدة من 
التراكيب والعلاقات المتنوعة التي تمثل المعجم اللغوي للعقل البشري )2002 Wray,‏ 
(Sinclair, 1991‏ بالإضافة إلى ذلك تؤكد كثير من الأبحاث في علم اللغة التطبيقي 
أن طلاقة متعلم اللغة تعتمد بشكل أسامي على مدى إتقانه ومعرفته بهذه التراكيب 
وفهم الصلات والعلاقات اللغوية التي تحكمهالصة (Fillmore, 1979; Pawley‏ 
Syder,1983; Ohlrogge, 2009).‏ 


وفي علوم اللسانيات الحاسوبية ومعالجة اللغات ظهر كذلك pleal‏ مبكر بهذه 
الظاهرة وذلك لدورها المحوري في تحسين الدقة اللغوية لنتائج كثير من تطبيقات 
المعالحة الآلية للغات» فوجدت في هذا المجال العديد من المشاريع البحثية التي تمدف 
إلى تضمين هذه التراكيب في مراحل المعالجة الآلية التقليدية للغات"» وذلك ببناء 
معاجم حاسوبية دلالية ختصة هذه التراكيب (CS‏ نجد في الأعمال التالية:( Bar et al.,‏ 
Constant et al., 2013; Alghamdi, 2018‏ ;2014( أو تحسين عمل الخوارزميات 
الخاصة بالتعرف والاستخراج الآلي هذه التراكيب من النصوص كا في هذه الأمثلة: 
«(Ramisch 2015; Carpuat and Diab, 2010: Rikters and Bojar, 2017 )‏ 
وتعود بداية الأبحاث التى وظفت الأدوات الحاسوبية في دراسة هذه الظاهرة اللغوية 
إلى الستينات الميلادية مع بدايات اختراع الحاسوب وانتشار cal‏ وقد ركزت 
الأبحاث المبكرة في هذا المجال على تطبيق عدد من الطرق التى تفيد من الحاسوب 
وقدراته الفائقة في الاستخراج الآلي لعدد من أنواع التراكيب الاصطلاحية desk‏ 
قوالب لغوية محددة مسبقا (S‏ نجد في الدراسات التالية:( Stevens and Giuliano,‏ 
Berry-Rogghe, 1973; Atwell, 1988‏ ;1965(. 


-١‏ تتكون المعالجة الآلية للغات من مجموعة من المراحل المتعارف عليها في اللسانيات الحاسوبية والتي UU.‏ ما تبدأ بعدد 
من مهام تحضير النصوص المراد معالجتها ثم توظيف عدد من الخوارزميات في التحليل اللغوي والتي تشمل التقسيم 
الآلي co‏ والجمل ثم إرجاع المشتقات الصرفية إلى أصوها ثم GU‏ مرحلة الترميز الآلي للوحدات الصرفية بعدد 
من المعلومات اللغوية المتعلقة بأقسام الكلام والعلاقات النحوية والمعلومات الدلالية» لمزيد من التفاصيل عن مراحل 
التحليل اللغوي الالي يمكن مراجعة (حمادة» (QI * A‏ 


xL E 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n————————————-‏ 


Y‏ - الإطار النظرى 

في هذا الجزء سنتناول باختصار أهم المقدمات النظرية التي تشكل مدخلا لفهم 
هذه الظاهرة اللغوية» وسنقتصر هنا تحديداً على ذكر ما هو مهم لفهم عدد من المشاكل 
الحاسوبية التى تنشأ عن معالجة هذه الظاهرة في المستويات اللغوية المختلفة. 


"١‏ تعريف التراكيب الاصطلاحية والمتلازمات اللفظية 

من أهم ما يشغل الباحثين في هذه الظاهرة كثرة وتعدد المفاهيم والمصطلحات 
المستعملة في وصفهاء كا يوضح الشكل Y‏ أمثلة لعدد من المصطلحات المستعملة لوصف 
هذه التراكيب والظواهر المتصلة بها في اللغة العربية» ويمكن تبرير هذا التنوع والاختلاف 
في المصطلح والمفهوم بكثرة الأبحاث وحداثتها في هذه الظاهرة المعقدة» وكذلك شيوع 
التراكيب الاصطلاحية وتعدد أنواعهاء ولذا فكل باحث يحاول أن يقدم تصورا هذه 
الظاهرة اللغوية -متعددة الأوجه- من الزاوية التي مهتم مها أو المشكلة التي يعالجها. 


شكل Y‏ نماذج من المصطلحات المستعملة لوصف ظاهرة التراكيب الاصطلاحية في اللغة العربية. 


-١‏ في هذا الفصل يستعمل الباحث مصطلحى (التراكيب الاصطلاحية والمتلازمات اللفظية) ويراد با مفهوم واحد 
وهو الذي نشرحه في هذا الجزء من البحث. 


- 11:5 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EN‏ ^ 


والخصائص المشتركة للتراكيب اللغوية المستهدفة في سياق هذه الدراسة وهي كا يلي: 
* «كلمتين أو مجموعة من الكلمات ترد مع بعضها بعضاً بشكل دائم وثابت في 
مختلف السياقات)(غزالة» 1۹4۳ 2 (V.‏ 
*: كل غا من العا ات E‏ اله وقد کات مک عا وتوا ردت فق 
شكل من أشكال المركبات النحوية المختلفة؛ للدلالة على معنى تعادل قيمته 
الإخبارية قيمة العلامة اللغوية الواحدة» (ابن عمر» EY. uo Y * V‏ 
٠‏ «تجمع لفظي (أكثر من وحدة معجمية بسيطة)» يقع في الاستعمال اللغوي 
باطراد» وله دلالة ثابتة لا تنتج من تجميع دلالات مفرداته المكونة له». (فايدء 
٤‏ ص.۱۱۳). 
ومن التعريفات التى يكثر Usb‏ خاصة في أدبيات المعالجة الآلية للغات 
واللسانيات الحاسوبية تعريف p.269) Baldwin and Kim‏ :2010 والذي اعتمد 
بشكل كبير على تعريف سابق اقترحه Sag et al.‏ (2002) لهذا النوع من التراكيب 
والذي يمكن ترجمته کا بلي: 
«التراكيب الاصطلاحية هي وحدات معجمية ثابتة يمكن تقسيمها إلى وحدات 
نوعاً من الغموض في أحد مستويات التحليل اللغوي: (المعجمي - التركيبي - الدلالي 
-الوظيفي- الإحصائي)». 
ومن خلال هذه التعريفات وغيرها يمكننا تحديد مجموعة من الخصائص اللغوية 
التي يمكن استعاها لتمييز هذا النوع من التراكيب وهو ما سنتناوله في الجزء التالي من 
هذا الفصل. 


yp 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n——————————— $5‏ 


Y‏ , الخصائص اللغوية للتراكيب الاصطلاحية 

تتميز التراكيب الاصطلاحية التي تشكل هذه الظاهرة اللغوية المعقدة بعدد من 
الصفات التي تجعلها سببا لمشاكل متعددة في التحليل اللغوي الآلي ومن أهم هذه 
الصفات ما يلي: 

° تعدد مكونات التركيب: فمقتضى كلمة تركيب تعني بالضرورة أنها لابد أن 
تتكون من وحدتين معجميتين على الأقل» وهذا ما يميزها عن المفردات المنعزلة 
والكلمات المستقلة» ويرى كثير من اللغويين المحدثين أن التفريق بين مفهومي 
الكلمة والتركيب في التطبيقات الحاسوبية مثار كثير من الاختلاف وال 
لأن الكلمة يمكن أن يقصد بها تركيب لغوي كامل وخاصة إذا كان المعيار 
الوحيد للتفريق هو وجود المسافة أو الفراغ الذي يكون بين المفردات» وهو 
معيار وإن كان سهل التطبيق في مهام المعالحة الآلية للغة إلا أنه غير دقيق خاصة 
في اللغة العربية التى تتميز بالتداخل الشديد بين الوحدات المعجمية في المفردة 
(us D eus o d eS ciae‏ الذي اجتمعت فيه أربع وحدات معجمية 
متصلة وليس بينها مسافة في الكتابة» ففي اللغة العربية من الشائع أن نرى جملاً 
كاملة في صورة مفردة واحدة كا في المثال السابق. 

* التواتر وشيوع التلازم بين مكوناتها: من أهم ما تتصف به التراكيب الاصطلاحية 
أن الوحدات المعجمية المكونة ها غالبا ما تكون متصاحبة في الاستعمال ولو 
اختلف السياق اللغوي الذي تأتي فيه» وكذلك لا يمكن في أغلب الأحوال 
استبدال مكوناتها بألفاظ أخرى مرادفة لما. 

* المعنى الاصطلاحي: وهذه أهم صفة يمكن بها تمييز هذه التراكيب في مستوى 
التحليل الدلالي» فا يميز هذه التراكيب آنا تدل على معنى اصطلاحي مختلف 
غو الس اشرق الذى ندل عليه كر عا من الكل ت cis a‏ راا 
عن هذه الصفة بالمعنى الكلى أو الإجمالي للتركيب والذي لا يناسب ولا 
بتزاقق مع ada s cile Io‏ الصفة تود ف الراكيب يدريجات (gla‏ 
فكلم| ابتعد المعنى الكل عن المعاني الحرفية للمفردات» كلا قل مستوى شفافية 
التركيب» وينتج عن ذلك مستوى عال من الغموض اللغوي» وخاصة عند 


Er 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o ©2131‏ ^ 


استعمال التحليل الآلي التقليدي المعتمد على معالجة المفردات بشكل مستقل 
عن اشرق ال كى Ab‏ 

ومثل هذه التراكيب تصعب ترجمتها اعتهادا على ترجمة الكلمات المكونة LN e‏ 
بمعناها الكل صارت وحدة معجمية ذات دلالة مستقلة» وقد تنبه اللغويون العرب 
ci s doa‏ بكر يد لأعرية هده cool‏ الراب oA‏ و ارما الان gad‏ 
المعنى الإجمالي للتركيب فعلى سبيل المثال» ذكر سيبويه في الكتاب عددا من التراكيب 
اللغوية ثم أكد على ضرورة تلازمها وأثر ذلك على فهم المعنى» فيقول: 

«واعلم OT‏ هذه الأشياء لا ينفرد منها شيء دون ما بعده» وذلك É‏ لا يجوز أن تقول: 
nds‏ فاه حتى تقول إلى G‏ لأنّك Él‏ تريد Riu‏ والمشافهة لا تكون Y‏ من اثنين» 
فإ as‏ ا معنى إذا قلت إلى فيّ» ولا يجوز أن تقول بايعته يدأ لأنّك É‏ تريد أن تقول: 
ie‏ متي وأعطاني. OB‏ يصح المعنى إذا قلت: بيد لأا Y Y Soto‏ 

وقد تناولت بعض الأبحاث اللغوية الحديثة كذلك هذه الميزة وأثرها في التحليل 
الدلالي للتراكيب فقد عبر اللغوي المعروف حسان YY ١.ص (AYY)‏ عن هذا المعنى 
في التراكيب اللغوية بالتضام والضمائم» فيقول: 

«ومن قبيل التضام ما يساق من أمثلة التعبيرات المسكوكة مثل: يضرب USUS‏ 

في أسداسء ويلقي الحبل على الغارب» ويضع الأمور في نصابهاء وغير ذلك من 

العبارات التي تنوسي فيها ما كان ها من المعنى البياني حتى أصبحت كالأمثال لا 

تحتمل التغيير» ومن هنا جاء وصفها «بالمسكوكة). وإنا ينبغي ذكر الضرمائم هنا؛ OX‏ 

الاكتفاء بذكر الكلمة دون ضمائمها لا يصل بالمعجم إلى غايته المنشودة). 

Y , Y‏ تصنيفات وأنواع التراكيب الاصطلاحية 

تبعا لتنوع التراكيب الاصطلاحية وتعدد خصائصهاء تنوعت التصنيفات المقترحة 
cU‏ وسنتناول في هذا الجزء عددا من التقسيمات المعتبرة وفقا لمعايير ومستويات لغوية 

من أشهر التصنيفات استعمالاً وأكثرها مرونة وسهولة في التطبيق خاصة في مهام 
المعالجة الآلية للمتلازمات اللفظية» تقسيمها وفقًا لنوع الكلمة الأولى في التركيب أو 


adiac 


هذه الطبعة إهداء من SAM‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n————————UU‏ 


تبعاً لما يسمى برأس المركبء وهذا التصنيف يعتمد على اختيار الباحث لأقسام الكلام 
المعتمدة في بحثه» فعلى سبيل JEU‏ بناء على التصنيف العربي التقليدي للكلام إلى اسم 
وفعل وحرف» تكون المركبات تبعاً لذلك: اسمية مثل (ثقيل الدم)ء أو فعلية مثل 
(ركب رأسه)» أو حرفية مثل (على عينك يا تاجر). 

واتخذت بعض التصنيفات من عدد الوحدات المعجمية التي تتكون منها معياراً 
للتقسيم وتبعاً لذلك تكون التراكيب: ثنائية» أو ثلاثية» أو رباعية ... إلخ. 

وقدم ابن عمر (۲۰۰۷) تصنيفاً آخر هذه التراكيب مبني على استقراء عدد كبير من 
الأمثلة كا يظهر في الشكل رقم Y‏ 


الأمثال العبارات التقليدية 
(أكلت يوم أكل الثور الأبيض) (السلام عليكم) 


DII 


الأقوال السائرة 
(البطنة تذهب الفطنة) 


المركبات الشائعة 
(أبو مالك) 


عبارات الخطاب 
(وهلم جرا) 


cem 0 f mmn | 


الشكل SY‏ تصنيف المتلازمات اللفظية وفقاً لابن عمر (۲۰۰۷) YA- YY o‏ 
ويظهر ني هذا التصنيف التداخل بين بعض هذه الأنواع المقترحة للتراكيب؛ وذلك 
لعدم وجود معايير لغوية مميزة s dla‏ وهذه هي الحال الغالبة في كثير من التصنيفات 
المقترحة للمتلازمات اللفظية» وخاصة عندما يكون التفريق بين أنواعها معتمدا على 
معايير دلالية لا يحصل في الغالب إجماع بين اللغويين في تفسير مفاهيمهاء وتبعاً لذلك 
في تقسيم العبارات بالاستناد عليها. 


E 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل 


DC 


وني تصنيف آخر تبنى داود )۲٠٠٤(‏ -في معجمه للتعابير — 
هذه التراكيب إلى ١‏ نوعا کا يظهر في الشكل 4. 


"M 2‏ حكمة شائعة فى الاستعمال 
2 


5 حكمة شائعة في الاستمال 
القديم $ المعاصر 


كمة شائعة في القديم ر حر معاون 
مصطلح علمي 


الشكل ٤‏ : تصنيف داود للتعبيرات الاصطلاحية في اللغة العربية (داود» 5 (Y ١‏ ص۲۲-۲۱). 

ونلاحظ كذلك هنا أن غلب هذه الأنواع في هذا التصنيف تراعي المستوى الدلالي 
کار أسانق للشريق بين الوحدات المستجمية» والمعايين الدلالية غالبا ما تكون 
على التصنيف السابق. 

ومن التصنيفات المقترحة كذلك تصنيف غريم (Q1 VE)‏ والذي يعد من أكثرها 
تأثراً با مناهج اللغوية الحديثة» التي يراعي بعضها مدى الاستفادة من هذه التصنيفات 
في التطبيقات الآلية لمعالجة المتلازمات اللفظية. ويظهر في جدول Y‏ تقسيم التراكيب 
الاصطلاحية إلى أربعة أنواع بناء على معياري الثبات والشفافية”"» وكا يلاحظ أن 


-١‏ يقصد بثبات التركيب هنا درجة تلازم مكوناته وعدم تغيرها في السياقات اللغوية المختلفة» كا يقصد بالشفافية هنا 
مستوى استعمال التركيب في معناه الاصطلاحي أو الكلي ومدى بعده عن المعنى الحرفي للكلمات التي يتكون منها. 


1۳۷ - 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n———————————————U — 1‏ 


هناك علاقة عكسية بين هذين المعيارين وذلك يعنى أنه كلما كان التركيب Bl‏ ثباتا كان 


أكثر شفافية» والعكس صحيح. 
المعيار التراكيب الحرة | المتلازمات اللفظية | النحت | التعبير الاصطلاحي 


درجة الثبات 


Pm 
077777777 


درجة الشفافية 


جدول ۲: تصنيف التراكيب المعجمية بحسب درجة ثباتها وشفافيتها (غريم» (YAA o ٠١١5‏ 
وكذلك اقترحت غريم تقسياً آخر للمتلازمات اللفظية مبني على أقسام الكلام لرأس 

التركيب وكذلك الوظائف النحوية المتنوعة للتعابير الاصطلاحية» ويشمل هذا التصنيف 

ثلاثة مستويات Us‏ بينها عدد من العلاقات الحرمية كا يظهر ذلك في الجدول رقم Y‏ 


| المستوى الأكبر المستوى المتوسط المستوى الأصغر أمثلة | 
فعل + اسم فعل +اسم فاعل d:‏ الفجر 
فعل + مفعول به فعل + اسم أسدل الستار 
(فعل +حرف) + اسم | أخذ على عاتقه 
فعل + مفعول مطلق | خضع خضوعاً تاماً 
فعل + حال تفصد عرقا 
فعل + (حرف + اسم) استرسل في الحديث 
اسم + اسم اسم + اسم (إضافة) إطلاق النار 
Re La)‏ 0 
E! 5‏ أغلبية ساحقة 
اسم + صفة اسم + نفي +صفة/ اسم زيارة غير رسمية 
اسم + نفي + فعل جزأ لا يتجزأ 
اسم + حرف + اسم | اسم + حرف +اسم صراع على السلطة 
اسم+ من +اسم عنقود من العنب 


جدول ۳:تصنيف المتلازمات وفقاً لأقسام الكلام والوظائف النحوية (غريم.4 (Vt Aue Y M‏ 


-YYA- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EN‏ ^ 


ومن المفيد أن نشير هنا إلى أن ما يعرف بأسماء الأعلام Named Entity‏ وما يتعلق 
باستخراجها والتعرف JYI‏ عليها في النصوص قد أصبح إلى حد ما مجالا علمياً مستقلاً 
وله أبحاثه ودراساته المتعددة؛ ولذلك فلن يتضمن هذا الفصل معالجة هذا النوع من 
التراكيب» مع الأخذ في الاعتبار أن نتائج كثير من الأبحاث في هذ المجال تظهر الوصول 
إلى دقة عالية في المعالجة الحاسوبية لهذا النوع من التراكيب؛ وذلك لتميزها بالثبات 
اللغوي» وقلة التعقيدات والتغيرات اللغوية التي T Jas‏ عليها في السياقات المختلفة. 


-Y‏ مهام المعالحة الحاسوبية للتراكيب الاصطلاحية 

تعددت المناهج المتبعة في تقديم حلول لمشاكل المعالجة الآلية للغات الطبيعية» ووفقا 
للمنهج المختار» S4‏ الباحث الطرق والأدوات الحاسوبية التي تساعده على إجابة 
أسئلة البحث وحل مشكلاته وتحدياته» ويرى Dale‏ (2010) أن أغلب الطرق البحثية 
المتبعة في دراسات معالجة اللغات يمكن تصنيفها لمناهج أربعة رئيسة وهي كما يلي: 

* مناهج لغوية تقليدية: تستفيد من المعرفة اللغوية وتقدمها في المعالجة الحاسوبية 
وتعتمد على محاولة تمثيل قواعد اللغة ونقلها على شكل خوارزميات في تطبيقات 
AUI‏ الآلية للغات. 
للغة. 

* مناهج معتمدة على تقنيات الذكاء الاصطناعي بالإفادة من تقنيات تعلم الآلة 
وخوارزميات الشكات العصبية الاصطناعية وتقنيات التعلم العميق. 

* مناهج مختلطة أو متكاملة وهي المناهج التي توظف عددا من المناهج السابقة 
في الدراسة الواحدة؛ وذلك لتلافي عيوب الاقتصار على منهج واحد في حل 
المشاكل البحثية المعقدة. 

(y‏ أدبيات المعالجة الآلية للمتلازمات اللفظية من الشائع استعمال هذه المناهج 

البحثية والإفادة منها في تحسين مهام المعالجة الحاسوبية للتراكيب الاصطلاحية في ختلف 


-Wa- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n——————UUüUu |‏ 


مستويات التحليل اللغوي» ولكي نكون تصوراً شاملا للتطبيقات الحاسوبية في معالجة 
هذه s AUI AU‏ يمكها أن Ga tz‏ إل eal‏ هله المهام والعلاقة بينهاء فقد ذكر 
Constant et al.‏ )17 20( في مراجعته الشاملة لأدبيات المعالجة الحاسوبية للتراكيب 
الاصطلاحية أن أغلب الأبحاث في هذا الميدان تسعى لحل مشكلتين أساسيتين وهما: 
مشكلة الاستخراج الآلي هذه التراكيب من المدونات اللغوية» وكذلك مشكلة التعرف 
الآلي عليها في اللغة المكتوبة أو المسموعة» والعمل على حل هاتين المشكلتين في المعالحة 
الآلية للتراكيب الاصطلاحية يسهم بشكل فعال في تحسين أداء كثير من تطبيقات 
معالجة اللغات وتعزيز مستوى الدقة في نتائجها. ومن eal‏ هذه التطبيقات الت رحمة 
الآلية والمهام الحاسوبية الخاصة بالتحليل اللغوي بكافة مستوياته ومراحله» كالتحليل 
الصرفي والنحوي والدلالي وكذلك ما يتعلق بتقسيم الكلمات وترميزها با معلومات 
اللغوية. ويوضح شكل ‏ المهمتين الرئيستين لعالجة هذه الظاهرة اللغوية» ونوع 
العلاقة بينهاء حيث يظهر أن العمل على تحسين مهام الاستخراج الآلي يؤدي بالضرورة 
إلى تحسين نتائج مهام التعرف الآلي على التراكيب الاصطلاحية في النصوص المعالجحة. 


تطبيقات الترجمة الآلية 


الشكل ه: مهام المعالجة الحاسوبية للتراكيب الاصطلاحية والعلاقة بينها )2017 (Constant et al.,‏ 

وكذلك يشير السهمان مزدوجى الاتجاه إلى أن العلاقة متبادلة بين تطبيقات معالحة 
اللغة ومهمة التعرف الآلي على التراكيب الاصطلاحية» فتحسن أحد هذه المهام 
الحاسوبية يؤدي إلى تحسن الأخرى» فعلى سبيل JEU‏ إذا وصلت خوارزمية التعرف 
الآلي إلى نتائج دقيقة فإن هذا يؤدي إلى تحسن دقة المخرجات اللغوية لتطبيقات التحليل 
اللغوي والترجمة DEUS sr aged dea‏ يفاح مستوى الدقة في نتائج هذه 
التطبيقات يؤدي إلى تحسن أداء مهام الاستخراج الآلي للتراكيب الاصطلاحية. ومن 


Ape 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EN‏ ^ 


الجدير بالذكر هنا أن نوضح الفرق بين المهمتين الرئيستين لمعالحة التراكيب حاسوبياً؛ 
وذلك للخلط الذي قد يقع من كثير من الباحثين في هذا المجال» فنقول إنه يمكننا 
التفريق es‏ بمعرفة الفرق بين لمخرجات كل مهمة منهاء فعندما نطبق إحدى 
تقنيات الاستخراج الآلي فإن المخرجات حينئذ تكون عبارة عن قائمة من التراكيب 
المُستخرجة آليا من مدوئة لغويةء وقد خرن بعد ذلك في معجم حاسوي» أو تستعمل 
كمصدر لغوي في إحدى مهام معالجة اللغة المختلفة. 

Ul‏ فيه| يتعلق بمخرجات مهمة التعرف الآلي فهي عبارة عن نصوص موسومة 
برموز لتمييز التراكيب المتعرّف dade‏ وتختلف هذه الرموز تبعاً لاختلاف آلية 
التصنيف المعتمدة للتراكيب الاصطلاحية» وكذلك طريقة عمل خوارزميات التعرف 
الآلي. وسنتناول باختصار في الأجزاء التالية من هذا الفصل عدداً من الأبحاث التي 
gb‏ لاك قتي d no LA]‏ ر ف إسادى olea‏ ااا اة الظذاهرة 
اللخ 


Y, ١‏ مهمة الاستخراج الآلي للتراكيب الاصطلاحية 

تعد مهمة الاستخراج الآلي للتراكيب Multi- Word Expressionsz;-*Ua.2 VI‏ 
Extraction‏ من أكثر المهام الحاسوبية بحثا في أدبيات معالحة اللغات المتصلة بالتراكيب 
الاصطلاحية» ومخرجات هذه المهمة الحاسوبية غالبا ما تكون كما ذكرنا عبارة عن 
اللفظية. ومن eal‏ أهداف هذه المهمة استكشاف التعبيرات الاصطلاحية الجديدة التى 
تنشأً في الاستعمال اللغوي المعاصرء وكذلك معرفة التطور الدلالي للتعبير الاصطلاحي 
في سياقات نصية وزمنية مختلفة بالاعتماد على استقراء عدد من المدونات اللغوية. 

وإذا ما أردنا أن نضع تعريفاً هذه المهمة فيمكن أن نقول إنها عبارة عن مجموعة 
من العمليات الآلية أو غير الآلية والتي يطبق فيها نموذج حاسوبي يتكون من مراحل 
معالجة متعددة ويتضمن عددا من خوارزميات التنقيب عن البيانات لاستخراج أنواع 
مختلفة من التراكيب الاصطلاحية المستهدفة في الدراسة بناء على معايير لغوية أو 
إحصائية .63J.-‏ 


-١51- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—————————————UU |‏ 


وقد تعددت المناهج والطرق المستعملة في التطبيق العمل هذه المهمة» ولكن في 
الغالب Led‏ تتفق في ضرورة وجود عدد من الخطوات الأساسية» كالاعتماد على مدونة 
لغوية في تطبيق نموذج الاستخراج» والأفضل أن تكون المدونة معالجة بأحد برامج 
التحليل اللغوي الآلي وموسومة برموز لعدد من المعلومات اللغوية الصرفية والنحوية» 
ثم بعد ذلك يكون تطبيق النموذج الحاسوبي للاستخراج الآلي والذي يتضمن عددا 
من الخوارزميات والمعادلات الرياضية أو القواعد اللغوية المحوسبة» و يتضمن نموذج 
الاستخراج كذلك في الغالب عدداً من مراحل المعالجحة الآلية وغير الآلية» والتي تتعلق 
بتصفية وفلترة النتائج الأولية لنموذج الاستخراج الآلي؛ وذلك لاستبعاد مجموعات 
من أنواع التراكيب غير المنامنية» ويشمل ذلك التراكبية غير اة أو التي تحوي 
أخطاء لغوية» أو لا تتناسب مع المعايير المحددة للتراكيب المراد استخراجها. 


تطبيق النماذج إعداد وتحضير المدونة 


Lad dui. 
والفلترة للنتائج الأولية قوائم التراكيب الأولية‎ 


الشكل 5: مراحل المعالجة المتبعة في مهمة استخراج التراكيب الاصطلاحية. 

يوضح الشكل 5 الخطوات المتبعة في مهمة الاستخراج الآلي للتراكيب الاصطلاحية» 
ويظهر في الرسم أن عملية الاستخراج لابد أن تبنى على مدونة لغوية تحوي عددا من 
النصوص المكتوبة» ومستوى جودة المدونة اللغوية-من ناحية طريقة جمعهاء وكذلك 
مدى تزويدها بالمعلومات اللغوية عن طريق التحليل اللغوي الآلي أو غير الآلي- ها أثر 
كبير في تحديد مستوى جودة المخرجات النهائية لنموذج الاستخراج. 

بعد ذلك GU‏ مرحلة تهيئة المدونة وذلك بناء على الهدف المحدد لمهمة الاستخراج» 
فعلى سبيل المثال» قد يكون الحهدف هو الاقتصار على استكشاف التراكيب المرتبطة 
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بنوع لغوي معين كالتراكيب المستعملة في اللغة العلمية Aia‏ وهنا ينبغي أن يقتصر 
تطبيق النموذج على هذا النوع من النصوص لتحسين مستوى النتائج المتوقعة لنموذج 
الاستخراج QAI‏ 

ثم في مرحلة تطبيق النموذج ARS‏ عدد من العمليات الحاسوبية التي ag‏ إلى 
استكشاف أنواع من التراكيب المقصودة» وتصنيفها بعد ذلك في مجموعات وفقا لمعايير 
لغوية أو إحصائية. وفي المرحلة الأخيرة تطبق مجموعة من العمليات الحاسوبية لتصفية 
النتائج الأولية؛ وذلك باستبعاد العناصر المستخرجة بالخطأ أو بعض أنواع التراكيب 
غير المرغوب فيها في سياق الدراسة» وتتنوع المخرجات النهاتية لمهمة الاستخراج QI‏ 
للتراكيب الاصطلاحية» فقد تكون على شكل قوائم تراكيب مصنفة في فتات متجانسة» 
أو تكون على شكل مجموعة من الوحدات المعجمية الجديدة التي يمكن إضافتها لمعجم 
سابق» أو تستعمل أساساً لمعجم حديث لأنواع محددة من التراكيب الاصطلاحية. 

وني أدبيات معالجة اللغات تعددت وتنوعت الطرق المستعملة في استخراج 
التراكيب الاصطلاحية» فمن الأبحاث ما يركز على تطبيق طريقة لاستخراج نوع واحد 
محدد من التراكيب» كالمركبات الاسمية كما في هذه الدراسات: ;2005 Girju et al.,‏ 
Salehi et al., 2015‏ أو المركبات الفعلية كا في الدراسات التالية: Stevenson et al.,‏ 
Ramisch et al., 2008 ; McCarthy et al., 2003‏ :2004 ومنها ما يتضمن طرقاً 
هجينة أو متكاملة لاستخراج مجموعة متنوعة من أنواع التراكيب الاصطلاحية كا في 
هذه الأمثلة: )2015 .(da Silva et al. 1999; Seretan 2011; Ramisch‏ 

ويمكن تقسيم الطرق المستعملة في استخراج التراكيب الاصطلاحية وفقاً للمنهجية 
المتبعة في أبحاث معالجة اللغات» والتي سبق ذكرها باختصار في القسم الثالث من هذا 
الفصل» فبعض الأبحاث تستعمل الطرق التقليدية والتي تركز على ضرورة مراعاة 
الخصائص اللغوية والمعلومات المعرفية للتراكيب وتعزز من دورها في تطبيق نموذج 
الاستخراج» وعند تطبيق هذه الطرق من المهم أن تكون المدونة المختارة موسومة بعدد 
من المعلومات اللغوية التي قد تتضمن أقسام الكلام وأنواع التراكيب والعلاقات النحوية 
المتعددة» وهذه بعض الأمثلة للدراسات التي استعملت مثل هذه الطرق في استخراج 
التراكيب الاصطلاحية:(1998 .(Bartsch, 2004; Cowie, 1998; Mel'éuk,‏ 
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ومن الأبحاث في هذا المجال ما يركز على توظيف المعلومات الإحصائية ويحاول 
الإفادة منها والتركيز عليها في عملية استكشاف التراكيب اللغوية» وخاصة في ظل 
توفر مدونات لغوية ضخمة تعزز من دقة المعلومات الإحصائية المستخرجة منهاء وهذا 
المنهج الإحصائي في استخراج التراكيب الاصطلاحية من أكثر المناهج استعالاً؛ وذلك 
لسهولة تطبيقه آليا وعدم حاجته إلى التدخل البشري كثيرا في عملية تنفيذ النموذج» 
وتطبق هذه الطرق بشكل سريع وتؤدي إلى نتائج متميزة لأنها تستثمر القدرات الفائقة 
للحاسوب في إحصاء ومعالجة كميات ضخمة من البيانات والنصوص اللغوية التي قد 
تصل إلى بلايين أو تريليونات الكلمات. 

ومن أمثلة الناذج المعتمدة على المنهج الإحصائي ما يعرف بنموذج إن-قرام 
الإحصائي n-gram model‏ وكذلك استعمال ما يعرف بخوار زميات قياس الارتباط 
والعلاقات الرياضية» والتي لها دور حوري في تحديد مدى تلازم الكلمات في المدونة 
اللغوية بناء على مجموعة من الاختبارات الإحصائية التى تحدد درجة ارتباطها وقرما 
ااا وركيم lode É d der‏ در lk MI eli cea t‏ 
التي يكثر استعمالها مع بيان مراجعها. ومن أهم الدراسات التي اعتمدت على توظيف 
هذه الخوار زميات ما : )2005 (Pecina, 2008; Moirón, 2005; Evert,‏ 


Ja p‏ الخوارزميات 
f as I2 T5 (Church et al., T-score‏ 
[f xy 1991)‏ 
f. N Mutual‏ 
log; — (Daille, 1994)‏ 
Pxfy Information (MI)‏ 
SN !‏ 
log; 32 (Daille, 1994) MI3‏ 
fxfy‏ 
MI —scorexlog,, (Rychlý, 2008) MLI.log F‏ 
2fx‏ 
logDice = 14 + log; D = 14+ log; " 7 (Rychly, 2008) logDice‏ 
Log-likelihood(L.‏ - 
2Yu fu log (Dunning, 1093)‏ 
y LK)‏ 


جدول :٤‏ أمثلة لعدد من خوارزميات قياس درجة الارتباط مع مراجعها. 
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ومن الشائع أن تتبع الدراسة التي عدف إلى تطبيق خوارزميات الارتباط في 
الاستخراج الآلي للتراكيب الاصطلاحية عددا من الخطوات في مراحل المعالجة 
المختلفة؛ حتى تضمن الوصول إلى نتائج علمية وأكثر صدقاً في تمثيل بيانات المدونة 
اللغوية المعتمدة عليهاء وهذه الخطوات يمكن تلخيصها في القائمة التالية: 

٠‏ تحديد أنواع الخوارزميات المستعملة في نموذج الاستخراج. 

* تحديد نوع النص الذي ستطبق عليه عملية الاستخراج» فقد تطبق الخوارزميات 
على النص الأصلي مجردا من أي إضافات» أو قد تطبق على مستوى الرموز 
اللغوية الصرفية والنحوية المرتبطة بنصوص المدونة. 

٠‏ تحديد حد أدنى لدرجة شيوع المفردات المستعملة في استخراج التراكيب. 

* تحديد حد أدنى لدرجة الارتباط المقبولة وفقا للخوارزميات المستعملة. 

* حساب درجة الشيوع العامة للمفردات والتراكيب في المدونة اللغوية. 

* تطبيق خوارزميات الارتباط» ثم ترتيب النتائج وتصنيف التراكيب المستخرجة 
في جداول متعددة بحسب الخوارزمية المستعملة في استكشافهاء وكذلك من 
المفيد أن تفرز التراكيب في قوائم منظمة بطريقة تصاعدية وفقاً لدرجة الارتباط 
المستخرجة من المدونة اللغوية. 

* المقارنة بين نتائج تطبيق خوارزميات الارتباط» وتقييمها من خلال تحديد 
أفضلها أداءً في مهمة استخراج التراكيب DRM‏ 

ومن الطرق الشائعة الأخرى» توظيف عدد من الأناط والقوالب الصرفية 

والنحوية للغة في استخراج أنواع مختلفة من التراكيب بناءً على القوالب المعدة مسبقاً 
ومن أشهر التراكيب التي يمكن استعمالها كقوالب في استخراج التراكيب الاصطلاحية 
في اللغة العربية ما يل :(مضاف +مضاف إليه» فعل+ فاعل» موصوف + صفة) وغيرها 
الكثير من أنماط الجمل التى قد تأت فيها المتلازمات اللفظية» ومن الدراسات التى 


-١‏ يمكن الرجوع لدراسة )2008 (Kyto and Ludeling,‏ لزيد من التفاصيل حول هذ الخطوات وطريقة تطبيقها في 
نماذج الاستخراج UNI‏ للتراكيب الاصطلاحية. 
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استعملت هذه الطريقة في استخراج المتلازمات اللفظية: )2014, Castagnoli et al.‏ 
(Seretan,2011;‏ وغيرها. 


من جهة أخرى» اتجهت بعض الأبحاث في معالجة اللغات إلى توظيف بعض التقنيات 
المستعلمة في علوم تعلم الآلة والتعلم العميق وما يتصل بها في الاستخراج والتعرف 
الآلي على التراكيب الاصطلاحية» ومن أمثلة هذه الطرق ما يعرف باستعمال خوارزميات 
التصنيف التي تعتمد على ناذج التشابه الدلالي «Semantic Similarity‏ وتفيد هذه 
الطريقة كثيراً في استكشاف التراكيب الاصطلاحية قليلة الشفافية» أو بعبارة أخرى» 
التراكيب التي غلب على معناها الاستعمال الكلي المجازي الذي لا علاقة له بالمعنى 
2I‏ 3( للمفردات التي يتكون منها. ويقوم استعال هذه الخوارزميات على فرضية مفادها 
أن هناك تشابها دلاليا في التمثيل الحاسوبي الدلالي بين التراكيب الاصطلاحية وبعض 
الكلمات المفردة المرادفة لمعناها الاصطلاحيء فإذا أظهرت نتائج خوارزمية التصنيف 
تشابها دلاليا بين عدد من التراكيب والكلمات المفردة المرادفة لها فحينئذ يمكن استخراج 
هذه التراكيب وإضافتها لقوائم التراكيب الاصطلاحية» ويمكن إيضاح هذه المفهوم 
بمثال للتركيب الاصطلاحي الشائع في اللغة العربية «انتقل إلى رحمة الله)» والذي قد 
يتشابه pu‏ بعض الكلمات المفردة ككلمتي «توفي» أو «مات». 

وكذلك قد تستعمل خوارزميات تعلم الآلة المتعلقة بالتشابه الدلالي لتحديد 
مستوى الشفافية أو مدى الاستعمال الاصطلاحي للتركيب؛ وذلك من خلال مقارنة 
نتائج التشابه الدلالي بين معاني التركيب الاصطلاحي ومعاني الكلمات المكونة له في 
سياقات لغوية متفرقة» LIS‏ كان معنى التركيب بعيدا عن معاني الكلمات المكونة له 
كان أقل شفافية )2006 (Katz and Giesbrecht,‏ 

ومن أهم b y‏ استعمال هذه الطريقة توفر معاجم حاسوبية موسومة برموز دلالية 
للمفردات والتراكيب الاصطلاحية؛ لتتمكن خوار زميات تعلم الآلة من التدرب عليها 
حتى تصل إلى دقة عالية في مهمة تصنيف العبارات والمفردات إلى مجموعات متشابهة 
دلالياً» ومن أمثلة الدراسات التى اعتمدت هذه الطريقة: ;2011 Reddy et al.‏ 
Farahmand and Henderson 2016; Riedl and Biemann, 2015‏ واتجهت 
مجموعة من الدراسات الأخرى في هذا المجال إلى اعتماد المنهج الهجين أو المتكامل في 
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استخراج التراكيب الاصطلاحية آلياء والذي ببدف إلى الاستفادة من مميزات عدد من 
الطرق المختلفة» ويحاول قدر الإمكان التقليل من مشاكل الاعتماد على منهج أو طريقة 
واحدة» وهذا المنهج من أكثر المناهج استعمالاً في أدبيات معالجة اللغات» وخاصة في ما 
يتعلق باستكشاف التراكيب الاصطلاحية؛ وذلك لأنها ظاهرة لغوية معقدة ومتشعبة» 
فمن الأفضل إذا أردنا الوصول إلى نتائج أكثر دقة في المعالحة الحاسوبية هاء أن تُوظف في 
تصميم ناذج الاستخراج كل التقنيات والطرق المتاحة. وكذلك من فوائد اعتماد هذا 
المنهج أنه يساعد على مراعاة الخصائص اللغوية للتراكيب المختلفة؛ وذلك بتخصيص 
كل نوع من التراكيب بطريقة معينة تكون هي الأنسب لخصائصه والأكثر فائدة في 
معالحته الحاسوبية. 

ومن الأمثلة على دراسات استخراج التراكيب الاصطلاحية في اللغة العربية» 
دراسة(2010) Attia et al.‏ والتي طبقت les‏ ثلاث طرق لاستخراج التراكيب 
الاصطلاحية آلياً بالاعتماد على عدد من التقنيات الإحصائية واللغوية. الطريقة الأول 
في هذه الدراسة كانت متأثرة بدراسة )2009( Zarrie and Kuhn‏ وكانت تستهدف 
استخراج التراكيب الاصطلاحية قليلة الشفافية» وذلك من خلال ترجمة عناوين 
موسوعة ويكبيديا العربية إلى عدد من اللغات الأجنبية وبعد ذلك وبناء على نتائج 
الترحمة يصنف العنوان -الذي تكون ترحته كلمة مفردة في إحدى اللغات المقابلة- 
عبارة اصطلاحية؛ وذلك بناء على الفرضية التى تدعى أن التركيب الاصطلاحى تكون 
ac‏ اللغات LIU ie MI‏ اكل mel ji ctio yia‏ دول 0 عدا بن الراب 
المستخرجة باستعمال هذه الطريقة مع ترجمتها إلى الإنجليزية. 


| العبارة الاصطلاحية الترحمة | 
فقر الدم Anaemia‏ 
التهاب القولون Colitis‏ 
ورق الحائط Wallpaper‏ 
قمرة القيادة Cockpit‏ 
فريق عمل Teamwork‏ 


جدول 0: نماذج من العبارات المستخرجة باستعمال طريقة الترجمة والمقارنة إلى اللغات الأجنبية. 
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Ul‏ الطريقة الثانية» فتبعاً لدراسة Vintar and Fiser‏ )2008( استعمل الباحث 
الترجمة الثنائية بين العربية والانجليزية كوسيلة لاستكشاف تراكيب اصطلاحية 
جديدة في اللغة العربية» فبناء على افتراض أن العبارة الاصطلاحية في لغة ما قد تكون 
كذلك عندما تترجم إلى لغة أخرى. ترجمت الدراسة التراكيب الاصطلاحية المصنفة 
في المعجم الحاسوبي الدلالي شبكة الكلمات Princeton WordNet2*? (PWN)‏ إلى 
اللغة العربية» ومهذه الطريقة تمكن الباحث من استخراج أكثر من ١‏ ألف عبارة 
اصطلاحية. وني الطريقة الثالثة استعمل الباحث المنهج الإحصائي من خلال الاعتماد 
على تطبيق نموذج استخراج آلي يوظف lode‏ من خوارزميات قياس درجة الارتباط» 
وقد اعتمدت الدراسة على استخراج التراكيب الاصطلاحية بهذه الطريقة من مدونة 
غريبة تتكون من أكثر هخ A£A‏ مليون كل 

ds‏ دراسة أخر ى اقترح )2014( AlSabbagh et al.,‏ طريقة لاستخراج عدد 
من التراكيب الفعلية في اللغة العربية والتى تماثل معاني الأفعال الناقصة في الإنجليزية 
«nodal verbs‏ وقد طبق البحث celi‏ الإحصائي الآلي في استخراج التراكيب 
المستهدفة» وطبق نموذج الاستخراج على عدد من المدونات العربية يصل عدد كلماتها 
Y'o aac‏ مليون كلمة. وقدم Alghamdi and Atwell‏ )2016( مقارنة لتقييم 
استعمال عدد من خوارزميات الارتباط في استخراج المتلازمات اللفظية في اللغة 
العربية» وكذلك قامت الدراسة بقياس تأثير عامل شيوع الكلمات المستعملة على أداء 
خوارزميات الارتباط» وأظهرت نتائج هذه الدراسة أن خوارزمية MI.log f‏ للارتباط 
كانت الأفضل أداء في الاستخراج NI‏ للمتلازمات اللفظية» وكذلك بينت النتائج 
تحسناً ملحوظاً لأداء هذه الطريقة عندما تنفذ على مستوى الكلمات الأكثر شيوعاً في 
المدونة اللغوية. 

ولاتزال اللغة العربية في حاجة ملحة إلى مزيد من الدراسات التطبيقية في هذا 
المجال» توظف فيها أحدث الطرق الحاسوبية لاستخراج التراكيب الاصطلاحية 
من المدونات اللغوية الضخمة؛ وذلك لبناء مصادر لغوية شاملة تعزز من أداء مهام 


. http: / /wordnet.princeton.edu المعجم:‎ dj, -١ 
2- http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp? catalogId-LDC2009T30 
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معالجة اللغات آلياً. وأخيراء نؤكد هنا أن ما pi‏ في هذا الجزء من استعراض سريع 
لمهمة استخراج التراكيب الاصطلاحية ومراجعة لبعض الدراسات المتصلة بها ما هو 
إلا نبذة ختصرة عن مجال بحثي واسع تعددت فيه الأبحاث وتداخلت مع عدد من 
العلوم اللغوية والحاسوبية» كعلم الدلالة وتحليل الخطاب وعلوم التنقيب عن البيانات 
والتحليل الآلي للنصوص وغيرها كما هي طبيعة غلب الدراسات البينية في اللسانيات 
l PEUT‏ 


Y, Y‏ مهمة التعرف الآلي على التراكيب الاصطلاحية 

Ax‏ مهمة التعرف JYI‏ على التراكيب الاصطلاحية MWE Identification‏ جزءاً 
مها من أغلب تطبيقات معالحة اللغات؛ وذلك لما تشكله من أهمية قصوى في تحسين 
مستوى جودة ودقة المخرجات النهائية لمهام التحليل اللغوي الآلي المختلفة» فعلى سبيل 
المثال» في كثير من أنظمة معالجة اللغات والترجمة الآلية غالباً ما تتضمن المراحل الأولية 
لمعالجة النص نوعاً من أنواع التعرف NI‏ على التراكيب الاصطلاحية؛ وذلك لأهمية 
تخصيص هذا النوع من التراكيب بمعالجة حاسوبية خاصة تقلل من تأثيرها على درجة 
الغموض اللغوي في المخرجات النهائية هذه الأنظمة. 

وكا أوضحنا في القسم الثالث من هذا الفصل وخاصة من خلال الشكل رقم o‏ أن 
هناك تداخلاً وصلة دائمة بين مهمتي الاستخراج والتعرف الآلي» فنتائج الاستخراج 
الآلي تسهم في تحسين عمل تطبيقات التعرف الآلي والعكس صحيح» وللتفريق بينهما 
يمكن القول أن مخرجات التعرف الآلي غالبا ما تكون عبارة عن إضافة مجموعة من 
الرموز الخاصة للتراكيب الاصطلاحية المتعارف عليها في النص المعالج حاسوبيا 
ولذلك تعد تطبيقات التعرف الآلي نوعا من أدوات الترميز اللغوية الآلية الخاصة بهذا 
النوع من التراكيب؛ لأن مهمتها تركز على تصميم خوارزميات لإضافة علامات يمكن 
تمييزها عن باقي التراكيب اللغوية. 

ويوضح شكل V‏ نموذجاً مفترضاً لأحد خرجات برامج التعرف الآلي حيث يظهر 
النص موسوماً بعلامات للتراكيب الاصطلاحية. ومن المتعارف عليه في هذا المجال 
أن برامج الترميز اللغوي الآلي تكون مخرجاتها على قسمين: الترميز النصي والترميز 
المستقل» ففي النوع الأول تكون الرموز مصاحبة للنص الأصليء أما النوع الثاني فتكون 
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الرموز فيه مستقلة في ملفات خاصة بها ومصحوبة بأرقام تشير إلى مواضع هذه الرموز 
في النصوص الأصلية» ولكل نوع أماكن يحسن استعماله فيها بحسب التطبيق المستهدف 
فق قبل المرمق YI‏ 


من المؤكد أنه لن يلقي له بالا_ Js nr‏ عليه الدع pho‏ 
MWE MWE‏ 
_والضرب فيه حرام وزيا اعتيره Met dns dll Las iut‏ 
MWE MWE‏ 


الشكل ۷: مثال لأحد مخرجات التعرف الآلي على التراكيب الاصطلاحية باستعمال الترميز النصي. 

ويعتبر توفر المعاجم الحاسوبية للتراكيب الاصطلاحية عاملاً محورياً في تحسين أداء 
النماذج الحاسوبية المصممة للتعرف الآلي» حيث يمكن بناء خوارزمية تتعرف بسهولة 
على التراكيب الجديدة الماثلة للتراكيب الاصطلاحية المخزنة في معجم معد مسبقا عن 
طريق البحث في النص المعالج عن تراكيب ماثلة لمدخلات المعجم الحاسوبي المستعمل 
في مهمة التعرف الآلي» ويوضح شكل ۸ أهم المراحل التي تتكون منها برامج التعرف 
الآلي على التراكيب الاصطلاحية» حيث يمكن ملاحظة أن مهمة التعرف الآلي تشتمل 
على عدد من عمليات معالحة حاسوبية وتستفيد كذلك من المضادر اللغوية المتنوعة 
ذات الصلة بالتراكيب المراد التعرف عليها. 


: ^ 
AM نماذج‎ - 
8 LI 
AM قواعد لغوية‎ - 
خوارزميات‎ - 
A 


المخرجات: 

نصوص مزودة برموز 
التركيبات الاصطلاحية 
المتعرف عليها 


PE NR" 
التراكيب الاصطلاحية‎ 


شكل 8: المكونات الأساسية لمهمة التعرف الآلي على التراكيب الاصطلاحية. 
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و نؤكد هنا ما SS‏ في شرح الطرق المستعملة في الاستخراج الآلي للتراكيب» أن 
الدراسات في هذا المجال استفادت كذلك من كل التقنيات ومناهج البحث المستعملة 
في مهام معالحة اللغات» ووفقا لذلك تنوعت المناهج المعتمدة في التطبيقات المصممة 
للتعرف الآلي» فمنها ما يعتمد الطرق التقليدية القائمة على كتابة قواعد لغوية آلية 
للتعرف على بعض أنواع التراكيب» ومنها ما يوظف قدرات الحاسوب الفائقة في البحث 
والمقارنة فيعتمد على المعاجم الحاسوبية المعدة مسبقاً في التعرف الآلي» ومنها ما يوظف 
مجموعة من خوارزميات تعلم الآلة أو التعلم العميق في تحسين مهمة التعرف QVI‏ 
وتوسيع نطاق التراكيب التي يمكن التعرف عليها دون إشراف أو استعانة بمصادر 
لغوية معدة مسبقا. 

من أقدم الطرق استعالا في هذا المجال ما يعرف بالطرق المعتمدة على القواعد 
اللغوية المحوسبة حيث يستفاد فيها من الخصائص اللغوية للتراكيب المستهدفة في 
بناء قواعد لغوية آلية تمكن البرنامج من التعرف على التراكيب الموافقة للقاعدة à AA‏ 
مسبقاء وتتضمن في الغالب برامج التعرف المعتمدة على القواعد المراحل المعتادة في 
المعالجة الآلية للنصء كتقسيم الكلمات إلى أصغر وحدات صرفية وإرجاع المشتقات إلى 
U pol‏ وتزويد النص بالرموز الخاصة بأقسام الكلام والعلاقات النحوية بناء على نتائج 
التحليل الآليء وبعد ذلك يكون تطبيق خوارزميات التعرف المعتمدة على مقارنة النص 
المعالج بقوالب القواعد المخزنة في البرنامج» ومن أهم الدراسات التي تأثرت eie‏ 
الطرق في التعرف الآلي على التراكيب اللغوية Ghoneim and Diabi. j»‏ )2013 
) التى وظفت عددا من تقنيات التعرف على التراكيب في اللغة الإنجليزية والعربية 
لفحي هانب نظام خضلا d s eal a Iam AU‏ |ظهريت al dll ada eel‏ 
تطورا ملحوظا عند المقارنة بين نتائج الترجمة قبل وبعد دمج التراكيب الاصطلاحية 
المتعرف عليها في نظام المترجم الآلي. لكن من المهم هنا التنبيه على أن من أبرز عيوب 
هذه الطرق صعوبة تعاملها مع التراكيب المتغيرة صرفياً أو نحوياًء وكذلك صعوبة 
الاستفادة منها في معالجة التراكيب غير المتصلة والتي قد تتنوع فيها الكلمات الفاصلة 
بين أجزاءهاء وهذا النوع من التراكيب لا يمكن التعرف عليه آليا بمجرد استعمال 
خوارزميات البحث والمطابقة أو التقنيات المعتمدة على قواعد لغوية ثابتة. 
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ومن الطرق الأخرى المعتمدة على التصنيف المبني على تعلم الآلة في التعرف «I‏ 

يقة تمييز المعاني المختلفة للتراكيب Sense Disambiguation Method‏ « والتي 
تستعمل فيها خوارزمية التعرف الآلي عددا من التقنيات الإحصائية لاستخراج مجموعة 
من المعلومات الدلالية عن استعمال التركيب في سياقات لغوية مختلفة» ومن خلال هذه 
المعلومات caa‏ التراكيب المستهدقة في Xd lel‏ إلى عدة مجموغات بتاء de‏ المعلومات 
الإحصائية عن استعمالاتها المختلفة» ومن ثم تظهر في النتائج التراكيب الاصطلاحية 
في مجموعات مستقلة متشابهة دلاليا وفقا لمعلومات وسياق استعاهاء ويتم التركيز في 
هذه الطرق غالباً على التعرف على التراكيب قليلة الشفافية أو بعبارة أخرى التراكيب 
المستعملة غالباً في معانيها المجازية. فعلى سبيل المثال قدم Hashimoto and‏ )2008( 
lnc Kawahara‏ لنظام آلي مبني على عدد من خوارزميات تعلم الآلة يمكنه التعرف 
الآلي والتفريق بين الاستعالات الحقيقية والمجازية لعدد من التراكيب الاصطلاحية في 
اللغة اليابانية. وتنطلب هذه الطرق كمثيلاتها وجود معاجم حاسوبية أو مدونات لغوية 
موسومة بالمعلومات اللغوية وخاصة ما يتعلق بمعانيها الدلالية في سياقات ختلفة» 
ليمكن من خلالها تدريب خوارزميات تعلم الآلة على التمييز بين معاني التراكيب في 
السياقات اللغوية المتعددة. 

كذلك توظف بعض الطرق المستعملة في التعرف الآلي على التراكيب الاصطلاحية 
معلومات التحليل الصرفي والنحوي الآلي في تعزيز دقة الخوارزميات المصممة هذه 
المهمة» ومن الأمثلة على ذلك دراسة Green et al.‏ )2013( التي طبقت نموذجاً 
للتحليل اللغوي MI‏ يتضمن الاستفادة من المعلومات اللغوية الصرفية والنحوية 
في تحسين مستوى الدقة في التعرف الآلي على التراكيب الاصطلاحية في اللغة العربية 
والفرنسية» وقد وجدت الدراسة كذلك في التجربة المطبقة على Xue‏ من النصوص 
اللغوية أن نتائج التحليل اللغوي كذلك تأثرت إيجابياً عند دمج التعرف الآلي على 
التراكيب في مراحل برنامج التحليل اللغوي الآلي المختلفة. وقد تعددت الطرق المقترحة 
لتقييم النماذج والبرامج الحاسوبية لمهام الاستخراج والتعرف الآلي» وذلك تبعا لتعدد 
الطرق المستعملة في هذه التطبيقات» ومن أشهر طرق التقييم في مهمة الاستخراج الآلي 
مايل: 


—\0Yy-— 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o ©2131‏ ^ 


* التصنيف اليدوي للنتائج من قبل الخبراء واللغويين المختصين. 
* المقارنة الآلية بمعاجم حاسوبية معدة مسبقاء ومن أبرز عيوب هذه الطريقة 
صعوبة توفر معاجم محوسبة شاملة للتراكيب الاصطلاحية مما يقلل من فعاليتها 
ومستوى تغطيتها في تقييم المخرجات الصحيحة التي قد لا توجد في المعاجم 
المستعملة: 
٠‏ قوائم التراكيب الاصطلاحية المصممة لمهمة استخراج محددة» وهذه الطريقة 
مفيدة جدا عندما يكون ال هدف هو قياس مدى فعالية نموذج استخراج محدد 
في سياق لغوي خاصء كاستخراج عدد من التراكيب التي تستعمل بكثرة في 
الكتابات العلمية والرسائل الأكاديمية على سبيل المثال. 
* التقييم المتكامل أو الهجينء والذي يوظف عدداً من الطرق السابقة في تقييم 
النموذج الحاسوبي» وغالبا ما تستعمل هذه الطريقة عند تعذر الاعتماد على 
طريقة واحدة لأسباب عملية متعددة. 
ويكثر استعمال طرق التقييم المعتادة في ناذج التنقيب عن البيانات لتقييم خرجات 
التعرف الآلي على التراكيب الاصطلاحية» حيث تتم مقارنة نتائج المرمز الآلي للتراكيب 
الاصطلاحية بنصوص موسومة برموز للتراكيب الاصطلاحية من قبل الخبراء» أو 
sce YU‏ على مصادر لغوية محصصة للتراكيب الاصطلاحية» وتستعمل في هذا التقييم 
غالبا درجات القياس المعروفة كدرجة الدقة والاستدعاء ودرجة إف Precision,)‏ 
(Recall, and F-measure‏ 

كذلك تستفيد بعض الدراسات من enl‏ ما يعرف بالتقييم التطبيقي» والذي 
يعتمد على تقييم النموذج الحاسوبي من خلال قياس مدى تأثيره في جودة خرجات 
أحد تطبيقات معالجة اللغة ذات الصلة بالتراكيب الاصطلاحية» كالتحليل اللغوي أو 
الترجمة الآلية» ومن ثم يكون الحكم على مدى فعالية النموذج ودقة نتائجه بناء على 
مدى تأثيره الإيجابي في تطبيقات معالجة اللغات. 

ومن الطرق المستعملة مؤخراً في تقييم وتحسين أداء تطبيقات الاستخراج والتعرف 

الآلي ما يعرف بطريقة المهمة المشتركة Shared Task‏ والتي غالبا ما تكون جزءًا من 
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الفعاليات العلمية الملحقة بالمؤتمرات الأكاديمية المختصة في اللسانيات الحاسوبية 
وعلوم المعالجحة الآلية للغات» فيقوم المنظمون للمؤتمر بعرض مهمة محددة للمختصين 
المشاركين في المؤتمر كالاستخراج QVI‏ للتراكيب الاصطلاحية الاسمية على سبيل 
«Jl‏ ويطلب بعد ذلك من المشاركين تنفيذ هذ المهمة باستعمال إجراءات وخطوات 
مشتركة تشرح لهم بالتزامن مع ا ep‏ 
المهمة» يتدارس المشاركون نتائج تطبيقاتهم المختلفة» ومن خلال المقارنة بين النتائج 
Ex I e.‏ ينام يداك لخر جايو اوقد 
تتعدد كذلك اللغات المستعملة في المهمة الواحدة» فيكون التقييم حينئذ مفيداً لمعرفة ما 
إذا كان بالإمكان تعميم النتائج لتشمل لغات أخرى 


٠, Y‏ التراكيب الاصطلاحية والمعاجم الحاسوبية 
لتوفر المصادر اللغوية الآلية دورٌ أساسي في تحسين كثير من نتائج تطبيقات معالحة 
اللغات» وخاصة ما يتعلق منها بمعالة التراكيب الاصطلاحية؛ فكثير من التطبيقات 
التي سبق الحديث عنها في هذا الفصل تعتمد دقة النتائج فيها على مدى توفر هذه 
المصادر اللغوية ومستوى جودتها؛ ولهذه الآهمية نجد في أدبيات المعالجة الحاسوبية 
للتراكيب الاصطلاحية oe‏ كبيراً من الأبحاث التي تهتم ببناء مصادر لغوية حاسوبية 
للتراكيب الاصطلاحية» وتتضمن كذلك في بعض الحالات أنظمة تثيلية للمعلومات 
اللغوية التى تضاف لا في المستويات الصرفية والنحوية والدلالية وغيرها؛ وذلك 
وسيم GU‏ الاد من هذه المصادر فى تطيقات aua‏ اللغة المتنددة. 
وقد Losnegaard et al. e‏ (2016) مراجعة شاملة للمصادر الحاسوبية 
المتوفرة للتركيب الاصطلاحية» واعتمد الباحثون في معرفة هذه المصادر على قواعد 
بيانات المصادر اللغوية على شبكة الإنترنت”'» وكذلك باستعمال استبانة Oiol‏ 
صممت هذا الغرض ووزعت على الباحثين والمهتمين في قوائم بريدية متنوعة» وفي 


-١‏ من أهم المصادر التي رجعت لما لدراسة قواعد البيانات التالية: 
META-SHARE: the ILSP managing node‏ -. 
ELRA: European Language Resources Association‏ -. 
SIGLEX-MWE: the MWE community website‏ -. 


https://goo.gl/eYz8qL الاستبانة متاحة على الإنترنت ويمكن الرجوع ها من خلال هذا الرابط:‎ TY 
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نتائج هذه المراجعة B>‏ وجود تنوع في هذه المصادر؛ وذلك وفقاً للأغراض التي 
أنشئت من أجلهاء فمنها على سبيل المثال» ما يكون على شكل وحدات معجمية مجردة 
من سياقاتها اللغوية» ومنها ما يتضمن جملاً طويلة لشرح معاني الدلالات المختلفة 
للتركيب في سياقات لغوية مختلفة» ومن هذه المصادر كذلك ما يقتصر على لغة واحدة 
ومنها ما يشمل لغاث متعددة. وتوفر بعض هذه المصادر معلومات لغوية إضافية عن 
التركيب أو الوحدات المعجمية بالاعتماد على نظام حاسوبي لتمثيل البيانات اللغوية» 
وقد تعتمد بعض هذه المصادر على الأنظمة القياسية لتمثيل المصادر اللغوية كالنظام 
القياسي Lexical Mark-up Framework (9.3 ; all‏ ومن el‏ فوائد اعتاد هذه 
الأنظمة القياسية في تمثيل البيانات اللغوية» سهولة استعمال المصدر اللغوي وتوظيفه 
في تطبيقات حاسوبية مختلفة دون الحاجة لإضافة الكثير من التغييرات على المصادر 


£ 


الأصلية. 

وقد تعددت المعاجم الحاسوبية المطورة في اللغة العربية» فعلى سبيل المثال 
قدم Alghamdi and Atwell‏ )2016( نظاما لتمثيل البيانات اللغوية للتراكيب 
الاصطلاحية في اللغة العربية وذلك للوصول إلى تمثيل حاسوبي شامل oid‏ الظاهرة 
اللغوية يراعى الخصائص الفريدة للغة العربية بمختلف مظاهرها ومستوياتها اللغوية» 
s‏ دراسة los (2016) Najar et al. sb C‏ للمركبات الاسمية في اللغة 
العربية مع تمثيل ها في البيئة الحاسوبية الخاصة بمهام معالجة اللغات والمعروفة (De ga‏ 
cNooj‏ وقد اتجهت عدد من الدراسات الأخرى في هذا المجال إلى نشر قوائم لعدد من 
التراكيب التي تم التعرف عليها باستخدام طرق الاستخراج الآلي المتنوعة في مواقع 
خاصة أو ضمن قواعد البيانات اللغوية على الإنترنت» (S‏ في هذه الأمثلة: Hawwari)‏ 
et al.,2014; Attia, 2006; Abdu, 2011‏ ). وعلى الرغم من تعدد الدراسات à‏ 
هذ المجال إلا أن اللغة العربية لاتزال في حاجة إلى المزيد من البحث والجهود العلمية 
المؤسسية لبناء مصادر لغوية حاسوبية حديثة تمثل اللغة العربية بكافة مستوياتها كا 


١-لمزيد‏ من المعلومات حول هذ النظام وطريقة تطبيقه على لغات متعددة ومنها العربية يمكن الرجوع إلى كتابه الأساسي 
(Francopoulo, 2013)‏ 


Y‏ - تقدم هذه البيئة مجموعة من الأدوات الحاسوبية لمعالجة اللغة بكافة مستوياتهاء ولمزيد من التفاصيل يمكن الرجوع لهذا 
المصدر )2016 (Silberztein,‏ 
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توفر معلومات دقيقة عن التطور الدلالي لاستعمال التراكيب الاصطلاحية في الأزمنة 
والأماكن المختلفة التي تستعمل فيها اللغة العربية» وتقدم كذلك أنظمة تفصيلية لتمثيل 
البيانات اللغوية. 


٤‏ و Y‏ التراكيب الاصطلاحية وتطبيقات معالحة اللغات 

أثبتت كثير من الأبحاث والتجارب التطبيقية في كثير من أدبيات معالجة اللغات 
واللسانيات الحاسوبية Tan and Pal, 2014; Monti, 2015; Carpuat and)‏ 
0 + أن المعالجة الحاسوبية الكافية oid‏ الظاهرة اللغوية ها أثر إيجابي كبير في 
تحسين مخرجات كثير من مهام معالجة اللغات آلياً؛ وذلك لدورها المحوري في تقليل 
نسبة الغموض اللغوي في النتائج الأخيرة هذه التطبيقات المختلفة» والتي من أهمها 
تطبيقات التحليل اللغوي بمستوياته المختلفة وكذلك الترجمة الآلية» ويوضح الشكل 
رقم 4 أمثلة لعدد من التطبيقات التي يمكن فيها دمج المعالجة الحاسوبية هذه الظاهرة 
اللعوية: 


الشكل 3: أمثلة لتطبيقات المعالحة الآلية للغات. 
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فعلى سبيل المثال» أثبتت دراسة Ghoneim and Diab‏ )2013( تحسنا ملحوظاً في 
خرجات نظام الترجمة الآلية بين اللغة العربية والإنجليزية عند دمج معالجة التراكيب 
الاصطلاحية في نموذج الترجمة الإحصائي» و طبقت الدراسة e‏ تقنيات لدمج 
التراكيب الاصطلاحية في نظام الترجمة الآلية وذلك وفقا للخصائص اللغوية للتراكيب 
الاصطلاحية المستهدف إدماجها في برنامج الترجمة. وأوضحت النتائج تأثيرا إيجابيا 
لدمج التراكيب الاصطلاحية في تحسن جودة نتائج تطبيق الترجمة. 

وني أدبيات الترجمة الآلية» تعددت الطرق المطبقة في دمج معالجة التراكيب 
الاصطلاحية في أنظمة Re JE‏ الآلية المتعددة» فمنها ما يعتمد على التعرف NI‏ الأولي 
هذه التراكيب قبل بداية الترجمة» ومنها ما يعتمد على استخراج هذه التراكيب بعد عملية 
الترحمة» واتجهت دراسات أخرى إلى دمج معالحة التراكيب الاصطلاحية في داخل نظام 
الترجمة؛ بتفعيل خوارزميات التعرف الآلي على هذه التراكيب باعتبارها إحدى مراحل 
النموذج الخاص بالترجمة الآلية. 

وتعد برامج التحليل اللغوي الآلي من أكثر تطبيقات معالجة اللغة إفادة من دمج 
معالجة التراكيب الاصطلاحية؛ وذلك للدور المهم هذه المعالجة في تحسين نتائج التحليل 
الصرفي والنحوي والدلالي» والعكس صحيح فتحسن جودة مهام التحليل اللغوي 
تؤدي إلى تحسن مهام المعالجة الآلية الرئيسة هذه التراكيب كالاستكشاف والتعرف 
الآلي. وقد تعددت كذلك الأساليب المطبقة لدمج التراكيب الاصطلاحية في نموذج 
التحليل اللغوي الآلي فمنها ما يعتمد على الاستخراج UNI‏ هذه التراكيب ووضعها 
في قوائم خاصة بعد نهاية عمليات التحليل اللغوي المتنوعة وذلك لضان عدم تأثرها 
بالمعالجة الآلية المعتادة للمفردات والتراكيب في اللغة» ومنها ما iby‏ عددا من 
تقنيات التعرف الآلي على هذه التراكيب قبل أو بعد أو في أثناء تطبيق نموذج التحليل 
اللغوي. وفي اللغة العربية أثبتت دراسة Attia‏ )2006( تحسنا ملحوظاً في التحليل JYI‏ 
اللغوي للغة العربية عند دمج المعالجة الحاسوبية لبعض أنواع التراكيب الاصطلاحية» 
وأوصت الدراسة بتعدد أساليب هذ الدمج لتشمل كافة أجزاء نموذج التحليل اللغوي 
بداية بمرحلة إعداد وتحضير النص والتقسيم الآلي للكلمات والجمل وانتهاء بالمراحل 
المتقدمة كالتحليل النحوي والدلالي والوظيفي للنصوص. 
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٤‏ - عقبات وتحديات 

على الرغم من التقدم الذي يمكن ملاحظته في المعالجة الحاسوبية للتراكيب 
الاصطلاحية إلا أن البحث في هذ المجال لايزال يواجه lade‏ من التحديات والمشكلات 
المعقدة (uii ill‏ فطلب جهردا وخلولاً Lale‏ وعملة Quas]‏ معاطة هذه 
الظاهرة في تجلياتها WEE‏ المختلفة» وفي هذا القسم سنشير باختصار إلى أهم هذه 
التحديات. 

من أهم التحديات البحثية في مهام الاستخراج الآلي للتراكيب الاصطلاحية» أنه 
على الرغم من الفائدة الكبيرة التي قدمتها عدد من خوارزميات الاستخراج المتنوعة 
وخاصة التي تشكل جزءاً من النماذج الآلية المعتمدة على المعلومات الإحصائية 
كمعادلات الارتباط ونموذج إن قرام إلا أن هذه الطرق في الاستخراج الآلي لا تزال 
قليلة الفائدة عندما يتعلق الأمر باستكشاف عدد من أنواع التراكيب الاصطلاحية غير 
المتصلة» أو التي T Jas‏ عليها تغيرات صرفية ونحوية متنوعة بحسب السياق الذي تكون 
فيه؛ لأن مثل هذا النوع من التراكيب يتطلب معالجة حاسوبية دقيقة في عدد من مراحل 
التحليل اللغوي حتى يتمكن النظام الآلي من استخراجه في سياقاته وحالاته المتعددة. 

أما بالنسبة لتقنيات الاستخراج والتعرف الآلي المعتمدة على تعلم الآلة» ففي الغالب 
أنها بحاجة في مرحلة تدريب خوارزميات التصنيف إلى الاعتماد على مصادر لغوية 
حاسوبية مزودة بمعلومات لغوية في مستويات متعددة» وبناء هذه المصادر في الغالب 
يتطلب جهوداً بشرية مضنية ويستغرق أوقاتاً طويلة» لذا فإن من أهم المعوقات هذه 
الأبحاث تعذر الوصول في أغلب الحالات إلى معاجم شاملة وكافية تمثل التراكيب 
الاصطلاحية بكل مظاهرها وخصائصها المختلفة» وكل هذا يؤثر سلبياً بشكل أو 
بآخر على جودة المخرجات النهائية هذه التطبيقات. 

ومن أهم المشاكل المعقدة كذلك في هذ المجال» عدم وجود إجماع بين المختصين 
فيا يتعلق بمنهجية التقييم المعتمدة لهام المعالجة الحاسوبية للتراكيب الاصطلاحية» 
ووجود سلبيات لأغلب الطرق المستعملة في تقييم الناذج الحاسوبية المختلفة والتي قد 
تؤثر سلباً في مدى مصداقيته» فعلى سبيل المثال عند oie VI‏ على المصادر اللغوية الآلية 
في تقييم النتائج» غالباً ما تواجهنا مشكلة ندرة هذه المصادر أو ضعفها وعدم شموها 
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للتراكيب المستهدفة في عملية الاستخراج أو التعرف الآليء وكذلك من ناحية أخرى 
إذا تم الاعتماد على التقييم غير الآلي» والذي يستعين بالخبراء والمختصين لتصنيف 
النتائج إلى إيجابية أو سلبية» فإنه في مثل هذ الحالات لا يمكننا التقليل من التأثير السلبي 
لاستعمال الحدس والميول الشخصية في التقييم؛ ولذا فإن الحاجة ملحة في هذ المجال 
إلى استحداث منهجية واضحة وشاملة لتقييم التطبيقات المختلفة» بالاستناد إلى معايير 
علمية وعملية يسهل تطبيقها وتعميم نتائجها. 


ه-الخاتمة 

مع كثرة الأبحاث وتعدد المناهج والطرق المستعملة في اللسانيات الحاسوبية ومعالحة 
اللغات البشرية يبقى المجال مفتوحا والأسثلة البحثية مطروحة لتحقيق الهدف الأسمى 
لعلوم الذكاء الاصطناعي المتنوعة والذي يتمثل في حاولة أنسنة الآلات وتقليل الفجوة 
بينها وبين البشر من خلال تعزيز طرق التواصل بين الإنسان والآلة» ومحاولة تحسين أداء 
الآلة أو الحاسوب في أداء المهام المتصلة باستعمال اللغة» وذلك باستثار ما توفره الآلات 
من إمكانات وقدرات خارج قدراتنا البشرية المحدودة. 

وكا ذكرنا في مقدمة هذا البحث إن التراكيب الاصطلاحية من المشكلات المعقدة 
بدرجة تعقيد هذه الظاهرة اللغوية في لغتناء ولا تزال هذه الظاهرة في اللغة العربية بحاجة 
إلى مزيد من الدراسة والبحث والتحليل» وخاصة في ظل إدراكنا لما تتميز به اللغة العربية 
من خصائص هندسية بارعة» ومكونات رياضية متميزة» كالجذر والأوزان الصرفية 
التي قد تساهم في تسريع تقدم الأبحاث في هذا الميدان» وسد الفجوة بين اللغة العربية 
والمعالجة الحاسوبية للتراكيب الاصطلاحية بمختلف أشكاها وتطبيقاتها. 

وعلى الرغم من وجود الكثير من الدراسات المطبقة على اللغة العربية في هذا الميدان» 
إلا أنها في مجملها لا تقارن بها وصل له البحث في لغات أخرى كالإنجليزية على de‏ 
المثال؛ وهذا التأخر أسباب لعل من أهمها قلة الباحثين والمتخصصين في هذا النوع من 
الأبحاث» وكذلك قلة المؤسسات البحثية التي تُعنى بجمع المتخصصين في اللسانيات 
وعلوم الحاسوب -وغيرها من التخصصات ذات العلاقة - لبناء فرق بحثية متكاملة» 
يمكنها الوصول إلى نتائج ذات قيمة معرفية وتقديم إضافات علمية في هذا المجال المهم. 
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المراجع العربية 

ابن عمرء عبد الرزاق Y * * V)‏ المتلازمات اللفظية في اللغة والقواميس العربية» ge‏ 
الأطرش» تونس. 

أبو colo‏ محمد )٠ Y)‏ معجم التعبير الاصطلاحي في العرية المعاصرة» دار غريب» 
القاهرة 

أبو سعد أحمد CAV)‏ معجم التراكيب والعبارات الاصطلاحية العربية القديم منها 
والمولد. دار العلم للملايين بيروت 

إسماعيل» محمود. حسين» مختار الطاهر. الدوش» سيد عوض | 4870 CY‏ المعجم السياقي 
للتعبيرات اللاصطلاحية» مكتبة «QUA‏ بيروت 


بشارة» أنطون (Y * * Y)‏ معجم التعابير» مكتبة OU‏ بيروت 

حافظ» الطاهر عبد السلام هاشم (Y * * E)‏ معجم الحافظ للمتصاحبات العربية» مكتبة 
لبنان» بيروت. 

حجازي» محمود فهمي OA)‏ الجانب السياقي في المعاجم والكتب في dle‏ تعليم 
اللغة العربية لغير الناطقين باء الندوة العالمية الأولى لتعليم العربية لغير 
الناطقين بها الرياض oV Y Yu) cO e)‏ 

حسان» (YAVY) eU‏ اللغة العربية معناها ومبناهاء الحيئة المصرية العامة للكتاب» 
القاهرة 

حمادة» سلوى (9١٠١35)المعالجحة‏ الآلية للغة العربية» دار غريب» القاهرة. 

الخولي» محمد علي O AAA)‏ التراكيب الشائعة في اللغة العربية» دار الفلاح» عمان. 

داود» محمد محمد )3١١5(‏ المعجم الموسوعي للتعبير الاصطلاحي في اللغة العربية» 
دار مهضة مصرء القاهرة 

غريمء باولا سانتيان (Y VE)‏ تصنيف مجدد ومجدد للمتلازمات اللفظية العربية» في 
«المعجمية العربية قضايا وآفاق ج.؟ » كنوز المعرفة» Ole‏ 

غزالة» حسن )١997(‏ ترجمة المتلازمات اللفظية. 5 cole‏ المغرب (Y: Y)‏ 

فايدء وفاء كامل (YENE‏ المعاجم العربية القطاعية بين التراث والمعاصرة معجم 
التعابير الاصطلاحية نموذجا. في «المعجمية العربية قضايا وآفاق ج١‏ كنوز 
المعرفة» عمان 
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فايد» وفاء كامل (Y V)‏ معجم التعابير الاصطلاحية في العربية المعاصرة» أبو Jahl‏ 
القاهرة 
القاسمي» علي )١1914(‏ التعابير الاصطلاحية والسياقية ومعجم عربي لماء اللسان 
العربي» الرباط (مج۱۷ Ye‏ ص/7١-75).‏ 
هليل» محمد حلمي 80 C‏ الأسس النظرية لوضع معجم للمتلازمات اللفظية 
العربية» المعجمية العربية )١17-1١7(‏ تونس. 
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مباحث لغوية 1١‏ 


خوارزميات الذكاء الاصطناعي 


يُصدر مركز الملك عبدالله بن عبدالعزيز الدولي لخدمة اللغة العربية هذا الكتاب ضمن سلسلة 
(مباحث لغوية)؛ وذلك وفق خطة عمل مقسمة إلى مراحل؛ لموضوعات علمية رأى المركز حاجة المكتبة 
اللغوية العربية إليهاء أو إلى بدء النشاط البحثي فيهاء واجتهد 2 استكتاب نخبة من المحررين والمؤلفين 
للنهوض بعنوانات هذه السلسلة على أكمل وجه. 

ويهدف المركز من وراء ذلك إلى تنشيط العمل .2 المجالات التي 4215 إليها هذه السلسلةء سواء أكان 
العمل علميا بحثياء أم عمليا تنفيذياء ويدعو المركز الباحثين كافة من أنحاء العالم إلى المساهمة ‏ هذه 
السلسلة. 

3i‏ الأمانة العامة أن تشيد بجهد السادة المؤلفينء وجهد محرر الكتاب» على ما تفضلوا به من رؤى 
وأفكار لخدمة العربية ب2 هذا السياق البحثي. 

والشكر والتقدير الوافر لمعالي وزير التعليم المشرف العام على المركز. الذي يحث على كل ما من 
شأنه تثبيت الهوية اللغوية العربيةء وتمتينهاء وفق رؤية استشرافية محققة لتوجيهات قيادتنا الحكيمة. 

والدعوة موجّهة إلى جميع المختصين والمهتمين للتواصل مع المركز؛ لبناء المشروعات العلمية؛ وتكثيف 


الجهود: والتكامل تحو تمكين لغتنا العربية: وتحقيق وجودها السامى 2 مجالات الحياة. 


الأمين العام للمركز 
أ. د. محمود إسماعيل صالح 
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